Vollständige Prozesslösung für lange Audioverarbeitung
Das System meldet einen Fehler, wenn der Ton länger als 3 Minuten dauert:
- Hardware-Programm
Rüsten Sie Ihre Grafikkarte auf eine RTX3060 oder ein höheres Modell mit mindestens 12 GB Videospeicher auf, um sicherzustellen:- CUDA Version ≥ 11.8
- PyTorch mit aktivierter Cudnn-Beschleunigung
- Software-Anpassungen
Ändern Sie die wichtigsten Parameter:- Suche nach dem Parameter max_seq_len in models.py
- Empfohlener Wert:
- 5 Minuten Audio: eingestellt auf 6144
- 10 Minuten Audio: 12288
- Synchronisierte Änderung des entsprechenden Parameters von llama3_2_100M()
- alternativ
Langes Audio mit ffmpeg aufteilen:ffmpeg -i long.mp3 -f segment -segment_time 180 -c copy out%03d.mp3
Diese Antwort stammt aus dem ArtikelCSM Voice Cloning: Schnelles Voice Cloning mit CSM-1BDie































