Derzeitige Position:Abb. Anfang " AI-Antworten

Wie kann man den Fehler der Tensordimension in CSM Voice Cloning bei der Verarbeitung langer Audiodaten umgehen?

2025-08-29

1.6 K

Vollständige Prozesslösung für lange Audioverarbeitung

Das System meldet einen Fehler, wenn der Ton länger als 3 Minuten dauert:

Hardware-Programm
Rüsten Sie Ihre Grafikkarte auf eine RTX3060 oder ein höheres Modell mit mindestens 12 GB Videospeicher auf, um sicherzustellen:
- CUDA Version ≥ 11.8
- PyTorch mit aktivierter Cudnn-Beschleunigung
Software-Anpassungen
Ändern Sie die wichtigsten Parameter:
1. Suche nach dem Parameter max_seq_len in models.py
2. Empfohlener Wert:
  - 5 Minuten Audio: eingestellt auf 6144
  - 10 Minuten Audio: 12288
3. Synchronisierte Änderung des entsprechenden Parameters von llama3_2_100M()
alternativ
Langes Audio mit ffmpeg aufteilen:ffmpeg -i long.mp3 -f segment -segment_time 180 -c copy out%03d.mp3