Die Qwen-TTS-Stimmenbibliothek enthält sieben sorgfältig entworfene Sprachzeichen, jedes mit zweisprachigen Fähigkeiten und besonderen Merkmalen. Die Mandarin-Familie umfasst vier Grundtöne wie Cherry (süße weibliche Stimme) und Ethan (ruhige männliche Stimme), während die Dialekt-Familie die regionalen Charakteristika genau wiedergibt - Dylan zeigt den Rhythmus der pädophonen Laute des Pekinger Dialekts, Jada simuliert den trüben Klang des Shanghainesischen und Sunny stellt die Intonation und die Intonationsmuster des Sichuan-Dialekts wieder her. Das technische Team sammelt die Aussprachedaten der Dialekt-Muttersprachler und verwendet Adversarial Generative Network (GAN) für die akustische Merkmalsextraktion.
In der Praxis können diese Töne an verschiedene Szenarien angepasst werden: Chelsies zweisprachige Standardaussprache wird für den Bildungsbereich empfohlen, Serenas professionelle Stimme kann für Geschäftsszenarien gewählt werden, und Dylans Pekinger Dialekt kann für lokale Behördensysteme verwendet werden, um die Affinität zu erhöhen. Tests zeigen, dass die Erkennungsrate des Systems für die Dialekte Peking/Shanghai/Sichuan 92%, 89% bzw. 85% erreicht und damit weit über dem Durchschnitt ähnlicher Produkte liegt.
Diese Antwort stammt aus dem ArtikelQwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger UnterstützungDie































