这两个常见错误通常与音频样本长度或硬件配置相关,可通过以下方案解决:
张量维度错误:
- 调整序列长度:
- 打开
models.py
文件 - 修改
llama3_2_1B()
和llama3_2_100M()
中的max_seq_len
参数(默认4096,可增至8192)
- 打开
- 剪辑音频:将样本裁剪至2分50秒内(推荐长度)
CUDA内存不足:
- 缩短样本时长:使用更简短的音频(建议30秒基础样本测试)
- 降低批次大小:在
voice_clone.py
中调整batch_size参数 - 切换运行模式:改用Modal云端处理规避本地显存限制
- 硬件检查:确保显卡至少有6GB可用显存(RTX 2060及以上级别)
若问题持续,可尝试清理GPU缓存或重启Python环境。项目GitHub的Issues区也提供更多社区解决方案。
本答案来源于文章《CSM Voice Cloning:利用CSM-1B快速克隆声音》