Hintergrund des Themas
Der von herkömmlichen TTS-Systemen erzeugten Sprache mangelt es oft an emotionaler Volatilität, was CosyVoice mit einem feinkörnigen, emotionsgesteuerten Etikettierungssystem behebt.
Spezifische Durchführungsprogramme
- Standard-Sentiment-Etiketten einfügen: Direkt in den Text einfügen
[laughter]und[pause]usw. gekennzeichnet:'他突然[laughter]停下来,因为被逗笑了[laughter]'
- Verwendung der Befehlssteuerung: durch
inference_instruct2Die Methode legt den allgemeinen emotionalen Stil fest:'用欢快的语气说这段话'
- Techniken zur Verbesserung der RhythmikAktiviert während der Ausbildung
--use_prosodyParameter, der die Natürlichkeit von Betonung und Intonation verbessert
Fortgeschrittene Techniken
1. die Kombination von Tags und Befehlen für eine bessere Leistung
2. referenztokenizer.pyZeile 248Vollständige Liste der Tags anzeigen
3 Bei Film- und Fernsehsynchronisationsszenen wird empfohlen, die Emotionsbezeichnungen an der Tonzeitachse auszurichten.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie































