Derzeitige Position:Abb. Anfang " AI-Antworten

Wie können Entwickler einen eigenen, auf Orpheus-TTS basierenden Sprachstil anpassen?

2025-08-25

1.5 K

Die Anpassung des Sprachstils muss durch eine Feinabstimmung des Modells erreicht werden, die in fünf Stufen unterteilt ist:

Vorbereitung der DatenSammeln Sie 300 oder mehr Sprachproben des Zielstils (10-30 Sekunden pro Probe wird empfohlen), die aufgenommen werden sollen:
- WAV-Audio (24kHz Abtastrate)
- Gegenstück Text Transkription
- Optionale Beschriftung der Emotion
FormatkonvertierungKonvertieren Sie die Daten in das Format des Hugging Face-Datensatzes mit Hilfe des offiziellen Colab-Notebooks (ID in der Dokumentation) für die automatische Verarbeitung:
- Textnormalisierung (z. B. von numerisch zu Text)
- Extraktion von Sprachmerkmalen (F0, Mel-Spektrum)
- Aufteilung des Datensatzes (80/10/10)
Anpassung der KonfigurationsdateiÄnderung der Schlüsselparameter in finetune/config.yaml:
- learning_rate: empfohlen 3e-5
- batch_size: angepasst an den Videospeicher (4 wird für 12GB-Karten empfohlen)
- max_epochs: normalerweise 10-15 Runden
Grundlagentraining: Verwenden Sie das Accelerate Distributed Framework:
accelerate launch train.py
Durch den Trainingsprozess werden automatisch Metriken in das WandB-Panel hochgeladen
Überprüfung der EffektivitätEffektivität wurde anhand der Ähnlichkeit der Sprecher (Spearman-Korrelationskoeffizient ≥ 0,7 galt als zufriedenstellend) und der MOS-Natürlichkeitsbewertung (≥ 4,0 galt als ausgezeichnet) bewertet.

In der Regel führt ein 10-stündiges Training mit der V100 GPU zu den gewünschten Ergebnissen.

Schnellabfragestation AI-Tool