Die Nulldurchgangs-Spracherzeugung ist eines der wichtigsten Merkmale von CosyVoice, und das Verfahren ist wie folgt:
- Vorbereiten von HörprobenEine 16kHz-Prompt-Audio-Datei (z.B. zero_shot_prompt.wav) ist erforderlich.
- Aufrufen der Generatorfunktionreference_zero_shot: Verwenden Sie die Methode reference_zero_shot und übergeben Sie die entsprechenden Parameter:
from cosyvoice import CosyVoice2
import torchaudio
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')
prompt_speech_16k = torchaudio.load('./asset/zero_shot_prompt.wav')[0]
cosyvoice.inference_zero_shot('目标文本','提示文本',prompt_speech_16k) - Speichern der Ausgabe::
torchaudio.save('output.wav', j['tts_speech'], cosyvoice.sample_rate)
Vorbehalte:
- Wenn Sie den Effekt der offiziellen Website vollständig reproduzieren wollen, müssen Sie den Parameter text_frontend=False setzen.
- Für beste Ergebnisse wird das Modell CosyVoice 2-0.5B empfohlen!
- Die Methode erzeugt Sprache auf der Grundlage kurzer Proben der Zielklangfarbe ohne vorheriges Training.
Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie