Technologischer Durchbruch beim Klonen von Sprache ohne Proben
Orpheus-TTS erreicht eine echte Null-Sample-Sprachklonfähigkeit, was einen wichtigen technologischen Fortschritt im Bereich TTS darstellt.
Die drei wichtigsten technischen Merkmale dieser Funktion:
- Klonen von Tönen in nur 10-30 Sekunden von Referenzaudio
- Keine Feinabstimmung des Modells oder zusätzliche Schulung erforderlich
- Unterstützt Stapelverarbeitung und paralleles Klonen von mehreren Stimmen
Das Durchführungsprinzip basiert auf:
- Extraktion von Sprachrepräsentationen für selbstüberwachtes Lernen
- Techniken zur Entkopplung von Tönen und Rekombination von Merkmalen
- Adversarial Generative Networks (GAN) für die Tonumwandlung
Leistungskennzahlen werden angezeigt:
- Englische Sprachklone sind ähnlich bis zu 90%
- Ähnlichkeit der chinesischen Sprachklone 85%
- Verarbeitungsverzögerung innerhalb von 300ms kontrolliert
Es wird empfohlen, dass die besten Klonierungsergebnisse durch die Verwendung eines vortrainierten Modells (canopylabs/orpheus-tts-0.1-pretrained) erzielt werden können.
Diese Antwort stammt aus dem ArtikelOrpheus-TTS: Ein Text-to-Speech-Werkzeug zur Erzeugung natürlicher chinesischer SpracheDie
































