Drei Möglichkeiten, das Problem des unzureichenden CUDA Videospeichers zu lösen
CSM Voice Cloning verlässt sich bei der Modellinferenz auf die GPU, was zu Unterbrechungen führen kann, wenn der Videospeicher der lokalen Grafikkarte knapp wird. Nachfolgend finden Sie eine schrittweise Lösung:
- Methode 1: Kürzen des Audiobeispiels
Schneiden Sie die eingehenden Audio-Samples auf 30 Sekunden bis 1 Minute, um den Speicherbedarf der Grafik deutlich zu reduzieren. Es wird empfohlen, Tools wie Audacity zu verwenden, um den deutlichsten Teil der Aussprache zu erfassen. - Methode 2: Wechsel zur Ausführung in der Cloud
Nutzen Sie Cloud-GPUs über die Modal-Plattform:- Installieren Sie den Modal-Client:
pip install modal - Konfigurieren Sie das Konto:
modal token new - Führen Sie das Cloud-Skript aus:
modal run modal_voice_cloning.py
- Installieren Sie den Modal-Client:
- Methode 3: Anpassung der Modellparameter
Ändern Sie den max_seq_len-Parameter in models.py, um ihn auf 2048 oder 1024 zu senken, wobei zu beachten ist, dass dies die Qualität der Erzeugung langer Audios beeinträchtigen kann.
Diese Antwort stammt aus dem ArtikelCSM Voice Cloning: Schnelles Voice Cloning mit CSM-1BDie































