Technische Innovationen in der emotionalen Sprachsynthese
CosyVoice erreicht zum ersten Mal im Bereich der Sprachsynthese eine Echtzeit-Emotionskontrolle auf der Basis symbolischer Tags. Das Tokenizer-Modul gibt 8 Arten von paralinguistischen Tags vor, wie z.B. [Lachen][Weinen][Pause=200ms], und unterstützt die Anpassung von Reimen mit einer Genauigkeit von 50ms. Das technische Schema verwendet ein mehrstufiges konditionales adversariales Training:
- Zugrunde liegende MerkmaleModellierung emotionaler Reime mit Hilfe eines Tonhöhen-Kontur-Vorhersagenetzwerks
- Kontrolle des mittleren NiveausCross-Language Emotion Migration via Prosody-Tokens
- Anwendung der oberen SchichtOffene Schnittstellen für die Kontrolle auf semantischer Ebene, wie z. B. [style=happy]
Die empirischen Daten zeigen, dass das Hinzufügen von [Lachen] Tag kann die Annehmlichkeit Score von synthetisierten Sprache um 42% zu verbessern, und die Pause Markierungsfehler ist weniger als ±10ms. diese Funktion wurde auf das Spiel NPC-Dialog-System, das die Annotation Kosten um 90% im Vergleich zu den traditionellen emotionalen Sprachsynthese Schema reduziert angewendet.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie