Qwen-TTS wurde vom Qwen-Team in der Alibaba Cloud entwickelt, und seine Kerntechnologie basiert auf dem Training eines sehr großen Sprachdatensatzes. Der Datensatz deckt mehrere Sprachen und Dialekte ab und stellt sicher, dass die generierte Sprache sehr natürlich und fließend ist. Das System nutzt Deep-Learning-Algorithmen zur automatischen Optimierung von Intonation, Sprechgeschwindigkeit und emotionalem Ausdruck, so dass die Ausgabe der Aussprache einer echten Person sehr nahe kommt. Typische Trainingsdaten umfassen Zehntausende von Stunden Mandarin, Englisch und drei chinesische Dialekte (Peking/Shanghai/Sichuan), und fortschrittliche Vocoder-Technologien wie WaveNet werden verwendet, um eine feine Modellierung auf Wellenform-Ebene zu erreichen.
Was die technische Umsetzung betrifft, so verwendet Qwen-TTS eine durchgängige neuronale Netzwerkarchitektur, kombiniert mit einem Aufmerksamkeitsmechanismus zur dynamischen Analyse von Textmerkmalen. Wenn zum Beispiel Dialektwörter wie "今儿个" verarbeitet werden, löst das Modell automatisch die entsprechende Vokalregelbasis aus. Im Vergleich zum traditionellen gespleißten TTS ist die Reimfehlerrate um 62% reduziert, und der MOS (Mean Opinion Score) erreicht 4,3 (auf einer 5-Punkte-Skala). Diese Qualitätsleistung macht es zu einem der TTS-Systeme, die der Aussprache von Menschen in der chinesischen Sprache am nächsten kommen.
Diese Antwort stammt aus dem ArtikelQwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger UnterstützungDie































