Technische Praktiken für die dialektale Sprachsynthese
CosyVoice implementiert die dialektale Sprachsynthese durch ein Multi-Task-Learning-Framework, und sein 300M-SFT-Modell ist speziell für Dialekte wie Sichuan und Kantonesisch optimiert, wobei drei Schlüsseltechnologien zum Einsatz kommen:
- Phonem-ErweiterungDialektspezifische Phonem-Bibliothek, die 95% artikulatorische Merkmale abdeckt
- Rhythmische ModellierungLSTM-basierter Prädiktor für dialektale Intonation
- Datenerweiterung100.000 Stunden Dialekt-Mandarin Parallelkorpus
In diesem Beispiel muss der Entwickler nur den Befehl "Sag diesen Satz in Sichuan" eingeben, und das System schaltet automatisch in den Dialektmodus. Tests zeigen, dass der MOS-Wert für die Natürlichkeit der Sichuan-Dialektsynthese 4,8 Punkte erreicht, bei einer Phonemgenauigkeit von 921 TP3 T. Mit dieser Technologie wurden lokalisierte Navigationsansagen zu Kosten erstellt, die um 851 TP3 T niedriger sind als bei herkömmlichen Dialektaufzeichnungslösungen.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie