长音频处理全流程解决方案
当音频超过3分钟时系统会报错,可通过以下方法解决:
- ハードウェアプログラム
升级显卡至至少12GB显存的RTX3060以上型号,确保:- CUDA版本≥11.8
- PyTorch启用cudnn加速
- 软件调整
修改关键参数:- 找到models.py中的max_seq_len参数
- 建议值:
- 5分钟音频:设为6144
- 10分钟音频:12288
- 同步修改llama3_2_100M()的对应参数
- オルタナティブ
使用ffmpeg分割长音频:ffmpeg -i long.mp3 -f segment -segment_time 180 -c copy out%03d.mp3
この答えは記事から得たものである。CSMボイスクローニング:CSM-1Bによる高速ボイスクローニングについて