Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie verwendet man CosyVoice für die Erzeugung von Null-Sample-Sprache?

2025-08-23 735
Link direktMobile Ansicht
qrcode

Die Nulldurchgangs-Spracherzeugung ist eines der wichtigsten Merkmale von CosyVoice, und das Verfahren ist wie folgt:

  1. Vorbereiten von HörprobenEine 16kHz-Prompt-Audio-Datei (z.B. zero_shot_prompt.wav) ist erforderlich.
  2. Aufrufen der Generatorfunktionreference_zero_shot: Verwenden Sie die Methode reference_zero_shot und übergeben Sie die entsprechenden Parameter:
    from cosyvoice import CosyVoice2
    import torchaudio
    cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')
    prompt_speech_16k = torchaudio.load('./asset/zero_shot_prompt.wav')[0]
    cosyvoice.inference_zero_shot('目标文本','提示文本',prompt_speech_16k)
  3. Speichern der Ausgabe::
    torchaudio.save('output.wav', j['tts_speech'], cosyvoice.sample_rate)

Vorbehalte:
- Wenn Sie den Effekt der offiziellen Website vollständig reproduzieren wollen, müssen Sie den Parameter text_frontend=False setzen.
- Für beste Ergebnisse wird das Modell CosyVoice 2-0.5B empfohlen!
- Die Methode erzeugt Sprache auf der Grundlage kurzer Proben der Zielklangfarbe ohne vorheriges Training.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch