Hintergrund des Themas
Der von herkömmlichen TTS-Systemen erzeugten Sprache mangelt es oft an emotionaler Volatilität, was CosyVoice mit einem feinkörnigen, emotionsgesteuerten Etikettierungssystem behebt.
Spezifische Durchführungsprogramme
- Standard-Sentiment-Etiketten einfügen: Direkt in den Text einfügen
[laughter]
und[pause]
usw. gekennzeichnet:'他突然[laughter]停下来,因为被逗笑了[laughter]'
- Verwendung der Befehlssteuerung: durch
inference_instruct2
Die Methode legt den allgemeinen emotionalen Stil fest:'用欢快的语气说这段话'
- Techniken zur Verbesserung der RhythmikAktiviert während der Ausbildung
--use_prosody
Parameter, der die Natürlichkeit von Betonung und Intonation verbessert
Fortgeschrittene Techniken
1. die Kombination von Tags und Befehlen für eine bessere Leistung
2. referenztokenizer.py
Zeile 248Vollständige Liste der Tags anzeigen
3 Bei Film- und Fernsehsynchronisationsszenen wird empfohlen, die Emotionsbezeichnungen an der Tonzeitachse auszurichten.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie