这两个常见错误通常与音频样本长度或硬件配置相关,可通过以下方案解决:
张量维度错误:
- 调整序列长度::
- show (a ticket)
models.py
file - modifications
llama3_2_1B()
cap (a poem)llama3_2_100M()
hit the nail on the headmax_seq_len
参数(默认4096,可增至8192)
- show (a ticket)
- 剪辑音频:将样本裁剪至2分50秒内(推荐长度)
CUDA内存不足:
- 缩短样本时长:使用更简短的音频(建议30秒基础样本测试)
- 降低批次大小: in
voice_clone.py
中调整batch_size参数 - 切换运行模式:改用Modal云端处理规避本地显存限制
- Hardware check:确保显卡至少有6GB可用显存(RTX 2060及以上级别)
若问题持续,可尝试清理GPU缓存或重启Python环境。项目GitHub的Issues区也提供更多社区解决方案。
This answer comes from the articleCSM Voice Cloning: Fast Voice Cloning with the CSM-1BThe