Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Die Funktion zum Klonen von Sprache erzeugt ähnliche Sprache mit nur 10 Sekunden Referenzton

2025-08-23 1.1 K

Spitzentechnologie für das Klonen von Sprache

Das System zum Klonen von Sprache von Kyutai demonstriert bahnbrechende Fähigkeiten zum Lernen ohne Proben. Seine Kerntechnologie ist ein auf einem adversen generativen Netzwerk basierender Voiceprint-Encoder, der in der Lage ist, die Klangfarbe, Intonation und Aussprache des Sprechers aus nur 10 Sekunden Referenzaudio zu extrahieren. Diese Merkmale sind vom Sprachmodell getrennt und ermöglichen eine freie Kontrolle des Textinhalts unter Beibehaltung der Sprachmerkmale.

Das System verwendet eine zweistufige Trainingsstrategie: In der ersten Stufe wird ein generischer Vocoder anhand von Tausenden von Stunden an Multi-Sprecher-Daten vortrainiert; in der zweiten Stufe werden die personalisierten Sprachmerkmale mit Hilfe der Adaptertechnologie feinabgestimmt. Experimente zeigen, dass die generierte Sprache im MOS-Test (Mean Opinion Score) einen Wert von 4,2 (auf einer 5-Punkte-Skala) erreicht, und dass die Tester des 85% nicht in der Lage waren, zwischen der geklonten Sprache und der echten Aufnahme zu unterscheiden.

Es ist zu beachten, dass die Funktion noch nicht vollständig quelloffen ist und nur als Forschungsvorschau zur Verfügung steht. Offiziell heißt es, dass die Wasserzeichentechnologie aus ethischen Gründen entwickelt wird, um synthetische Sprache zu erkennen. Die vollständige Open-Source-Version wird voraussichtlich zusätzliche Sicherheitskontrollmechanismen enthalten.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang