ゼロサンプル音声生成はCosyVoiceの重要な機能の一つであり、その手順は以下の通りである:
- オーディオサンプルの準備16kHzのプロンプト音声ファイル(例:zero_shot_prompt.wav)が必要です。
- ジェネレーター関数の呼び出しreference_zero_shot メソッドを使用し、適切なパラメータを渡す:
from cosyvoice import CosyVoice2
import torchaudio
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')
prompt_speech_16k = torchaudio.load('./asset/zero_shot_prompt.wav')[0]
cosyvoice.inference_zero_shot('目标文本','提示文本',prompt_speech_16k) - 出力の保存::
torchaudio.save('output.wav', j['tts_speech'], cosyvoice.sample_rate)
警告だ:
- 公式サイトの効果を完全に再現したい場合は、text_frontend=Falseパラメータを設定する必要がある。
- 最良の結果を得るためには、CosyVoice 2-0.5Bモデルをお勧めします!
- この方法は、事前訓練なしで、ターゲット音色の短いサンプルに基づいて音声を生成する。
この答えは記事から得たものである。CosyVoice:アリ・オープンソース多言語クローン作成ツールについて