这两个常见错误通常与音频样本长度或硬件配置相关,可通过以下方案解决:
张量维度错误:
- 调整序列长度::
- 見せる
models.py
書類 - 修正
llama3_2_1B()
歌で応えるllama3_2_100M()
正鵠を得るmax_seq_len
参数(默认4096,可增至8192)
- 見せる
- 剪辑音频:将样本裁剪至2分50秒内(推荐长度)
CUDA内存不足:
- 缩短样本时长:使用更简短的音频(建议30秒基础样本测试)
- 降低批次大小で
voice_clone.py
中调整batch_size参数 - 切换运行模式:改用Modal云端处理规避本地显存限制
- 硬件检查:确保显卡至少有6GB可用显存(RTX 2060及以上级别)
若问题持续,可尝试清理GPU缓存或重启Python环境。项目GitHub的Issues区也提供更多社区解决方案。
この答えは記事から得たものである。CSMボイスクローニング:CSM-1Bによる高速ボイスクローニングについて