Die Anpassung des Sprachstils muss durch eine Feinabstimmung des Modells erreicht werden, die in fünf Stufen unterteilt ist:
- Vorbereitung der DatenSammeln Sie 300 oder mehr Sprachproben des Zielstils (10-30 Sekunden pro Probe wird empfohlen), die aufgenommen werden sollen:
- WAV-Audio (24kHz Abtastrate)
- Gegenstück Text Transkription
- Optionale Beschriftung der Emotion
- FormatkonvertierungKonvertieren Sie die Daten in das Format des Hugging Face-Datensatzes mit Hilfe des offiziellen Colab-Notebooks (ID in der Dokumentation) für die automatische Verarbeitung:
- Textnormalisierung (z. B. von numerisch zu Text)
- Extraktion von Sprachmerkmalen (F0, Mel-Spektrum)
- Aufteilung des Datensatzes (80/10/10)
- Anpassung der KonfigurationsdateiÄnderung der Schlüsselparameter in finetune/config.yaml:
- learning_rate: empfohlen 3e-5
- batch_size: angepasst an den Videospeicher (4 wird für 12GB-Karten empfohlen)
- max_epochs: normalerweise 10-15 Runden
- Grundlagentraining: Verwenden Sie das Accelerate Distributed Framework:
accelerate launch train.py
Durch den Trainingsprozess werden automatisch Metriken in das WandB-Panel hochgeladen - Überprüfung der EffektivitätEffektivität wurde anhand der Ähnlichkeit der Sprecher (Spearman-Korrelationskoeffizient ≥ 0,7 galt als zufriedenstellend) und der MOS-Natürlichkeitsbewertung (≥ 4,0 galt als ausgezeichnet) bewertet.
In der Regel führt ein 10-stündiges Training mit der V100 GPU zu den gewünschten Ergebnissen.
Diese Antwort stammt aus dem ArtikelOrpheus-TTS: Ein Text-to-Speech-Werkzeug zur Erzeugung natürlicher chinesischer SpracheDie
































