Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

CosyVoice's feinkörnige Stimmungssteuerung unterstützt 8 Klassen von paralinguistischen Markern

2025-08-23 659
Link direktMobile Ansicht
qrcode

Technische Innovationen in der emotionalen Sprachsynthese

CosyVoice erreicht zum ersten Mal im Bereich der Sprachsynthese eine Echtzeit-Emotionskontrolle auf der Basis symbolischer Tags. Das Tokenizer-Modul gibt 8 Arten von paralinguistischen Tags vor, wie z.B. [Lachen][Weinen][Pause=200ms], und unterstützt die Anpassung von Reimen mit einer Genauigkeit von 50ms. Das technische Schema verwendet ein mehrstufiges konditionales adversariales Training:

  • Zugrunde liegende MerkmaleModellierung emotionaler Reime mit Hilfe eines Tonhöhen-Kontur-Vorhersagenetzwerks
  • Kontrolle des mittleren NiveausCross-Language Emotion Migration via Prosody-Tokens
  • Anwendung der oberen SchichtOffene Schnittstellen für die Kontrolle auf semantischer Ebene, wie z. B. [style=happy]

Die empirischen Daten zeigen, dass das Hinzufügen von [Lachen] Tag kann die Annehmlichkeit Score von synthetisierten Sprache um 42% zu verbessern, und die Pause Markierungsfehler ist weniger als ±10ms. diese Funktion wurde auf das Spiel NPC-Dialog-System, das die Annotation Kosten um 90% im Vergleich zu den traditionellen emotionalen Sprachsynthese Schema reduziert angewendet.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch