Technische Umsetzung des effizienten Klonens von Tönen
Die technologische Kerninnovation von CosyVoice besteht darin, die Einschränkung zu durchbrechen, dass das herkömmliche Klonen von Sprache mehrere Minuten Training von Beispielen erfordert, und die Merkmalsextraktion und Generalisierung von kurzer 3-Sekunden-Sprache mit Hilfe eines kontrastiven Lernsystems zu erreichen. Das System verwendet die Variable Auto-Encoder (VAE)-Struktur, um 1-3 Sekunden Referenz-Audio in 128-dimensionale Timbre-Vektoren zu kodieren, zusammen mit dem Aufmerksamkeitsmechanismus, um eine Entkopplung und Umstrukturierung der Timbre-Merkmale zu erreichen. Praktische Tests zeigen, dass mit 15-Sekunden-Samples eine Klangfarbenähnlichkeit von 97% erreicht werden kann, und die sprachübergreifende Erhaltung von Klangfarben wird unterstützt. Der Entwickler kann diese Funktion durch einfache API-Aufrufe erreichen:
cosyvoice.inference_zero_shot( text=, prompt_text=, prompt_speech=)
Die Technologie wurde in Bereichen wie intelligenter Kundenservice und virtuelle Idole validiert und hat einen klaren Vorteil bei der chinesischen Klangtreue gegenüber kommerziellen Lösungen wie Resemble.AI.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie