Hintergrund
In mehrsprachigen Sprachsynthese-Szenarien ist es für herkömmliche Modelle oft schwierig, die Konsistenz der gleichen Klangfarbe in verschiedenen Sprachen aufrechtzuerhalten, was zu einem fragmentierten Sprach-Hörerlebnis führt.
Zentrale Lösungen
- Verwendung der Funktion zur Erzeugung von Nullproben: durch
inference_zero_shot
Methode behält das Modell die Klangcharakteristiken über die gesamte Spracherzeugung hinweg bei, indem es nur 3 Sekunden Referenzton bereitstellt.from cosyvoice import CosyVoice2 cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B') prompt_audio = torchaudio.load('prompt.wav')[0] cosyvoice.inference_zero_shot(text, prompt_text, prompt_audio)
- Vorgefertigte Modellunterstützung: Verwenden Sie direkt die offiziell bereitgestellten
CosyVoice2-0.5B
Modell, das gemeinsam auf einem mehrsprachigen Korpus trainiert wurde - Technologie zum Einfrieren von Tönen: Anruf
add_zero_shot_spk
Methode speichert die Timbre-Signatur, so dass die Audiodaten bei späteren Aufrufen nicht erneut geladen werden müssen.
caveat
Vergewissern Sie sich, dass das Referenz-Audio mit einer Abtastrate von 16 kHz vorliegt, und es wird empfohlen, einen klaren, trockenen Ton mit Umgebungsgeräuschen unter -60 dB aufzunehmen. Bei professionellen Szenen sollten Sie zunächst die Audio-Grundfrequenzeigenschaften mit einem Tool wie Praat überprüfen.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie