Spitzentechnologie für das Klonen von Sprache
Das System zum Klonen von Sprache von Kyutai demonstriert bahnbrechende Fähigkeiten zum Lernen ohne Proben. Seine Kerntechnologie ist ein auf einem adversen generativen Netzwerk basierender Voiceprint-Encoder, der in der Lage ist, die Klangfarbe, Intonation und Aussprache des Sprechers aus nur 10 Sekunden Referenzaudio zu extrahieren. Diese Merkmale sind vom Sprachmodell getrennt und ermöglichen eine freie Kontrolle des Textinhalts unter Beibehaltung der Sprachmerkmale.
Das System verwendet eine zweistufige Trainingsstrategie: In der ersten Stufe wird ein generischer Vocoder anhand von Tausenden von Stunden an Multi-Sprecher-Daten vortrainiert; in der zweiten Stufe werden die personalisierten Sprachmerkmale mit Hilfe der Adaptertechnologie feinabgestimmt. Experimente zeigen, dass die generierte Sprache im MOS-Test (Mean Opinion Score) einen Wert von 4,2 (auf einer 5-Punkte-Skala) erreicht, und dass die Tester des 85% nicht in der Lage waren, zwischen der geklonten Sprache und der echten Aufnahme zu unterscheiden.
Es ist zu beachten, dass die Funktion noch nicht vollständig quelloffen ist und nur als Forschungsvorschau zur Verfügung steht. Offiziell heißt es, dass die Wasserzeichentechnologie aus ethischen Gründen entwickelt wird, um synthetische Sprache zu erkennen. Die vollständige Open-Source-Version wird voraussichtlich zusätzliche Sicherheitskontrollmechanismen enthalten.
Diese Antwort stammt aus dem ArtikelKyutai: Werkzeug zur Umwandlung von Sprache in Text in EchtzeitDie































