这两个常见错误通常与音频样本长度或硬件配置相关,可通过以下方案解决:
张量维度错误:
- 调整序列长度::
- show (um ingresso)
models.py
papéis - modificações
llama3_2_1B()
responder cantandollama3_2_100M()
acertou em cheiomax_seq_len
参数(默认4096,可增至8192)
- show (um ingresso)
- 剪辑音频:将样本裁剪至2分50秒内(推荐长度)
CUDA内存不足:
- 缩短样本时长:使用更简短的音频(建议30秒基础样本测试)
- 降低批次大小: em
voice_clone.py
中调整batch_size参数 - 切换运行模式:改用Modal云端处理规避本地显存限制
- 硬件检查:确保显卡至少有6GB可用显存(RTX 2060及以上级别)
若问题持续,可尝试清理GPU缓存或重启Python环境。项目GitHub的Issues区也提供更多社区解决方案。
Essa resposta foi extraída do artigoClonagem de voz CSM: clonagem rápida de voz com o CSM-1BO