CSM Voice Cloningで長い音声を処理する際のテンソル次元の誤差を克服するには？

2025-08-29

1.6 K

长音频处理全流程解决方案

当音频超过3分钟时系统会报错，可通过以下方法解决：

ハードウェアプログラム
升级显卡至至少12GB显存的RTX3060以上型号，确保：
- CUDA版本≥11.8
- PyTorch启用cudnn加速
软件调整
修改关键参数：
1. 找到models.py中的max_seq_len参数
2. 建议值：
  - 5分钟音频：设为6144
  - 10分钟音频：12288
3. 同步修改llama3_2_100M()的对应参数
オルタナティブ
使用ffmpeg分割长音频：ffmpeg -i long.mp3 -f segment -segment_time 180 -c copy out%03d.mp3