Derzeitige Position:Abb. Anfang " AI-Antworten

Wie verwendet man CosyVoice für die Erzeugung von Null-Sample-Sprache?

2025-08-23

1.2 K

Die Nulldurchgangs-Spracherzeugung ist eines der wichtigsten Merkmale von CosyVoice, und das Verfahren ist wie folgt:

Vorbereiten von HörprobenEine 16kHz-Prompt-Audio-Datei (z.B. zero_shot_prompt.wav) ist erforderlich.
Aufrufen der Generatorfunktionreference_zero_shot: Verwenden Sie die Methode reference_zero_shot und übergeben Sie die entsprechenden Parameter:
from cosyvoice import CosyVoice2 import torchaudio cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B') prompt_speech_16k = torchaudio.load('./asset/zero_shot_prompt.wav')[0] cosyvoice.inference_zero_shot('目标文本','提示文本',prompt_speech_16k)
Speichern der Ausgabe::
torchaudio.save('output.wav', j['tts_speech'], cosyvoice.sample_rate)

Vorbehalte:
- Wenn Sie den Effekt der offiziellen Website vollständig reproduzieren wollen, müssen Sie den Parameter text_frontend=False setzen.
- Für beste Ergebnisse wird das Modell CosyVoice 2-0.5B empfohlen!
- Die Methode erzeugt Sprache auf der Grundlage kurzer Proben der Zielklangfarbe ohne vorheriges Training.

Diese Antwort stammt aus dem ArtikelCosyVoice: Ali quelloffenes mehrsprachiges Klon- und GenerierungswerkzeugDie

Darf nicht ohne Genehmigung vervielfältigt werden:KI-Produktivitätswerkzeuge " Wie verwendet man CosyVoice für die Erzeugung von Null-Sample-Sprache?