零样本语音生成是CosyVoice的重要功能之一,具体操作流程如下:
- オーディオサンプルの準備:需要一段16kHz的提示音频文件(如zero_shot_prompt.wav)
- 调用生成函数:使用inference_zero_shot方法并传入相应参数:
from cosyvoice import CosyVoice2
import torchaudio
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B')
prompt_speech_16k = torchaudio.load('./asset/zero_shot_prompt.wav')[0]
cosyvoice.inference_zero_shot('目标文本','提示文本',prompt_speech_16k) - 保存输出结果::
torchaudio.save('output.wav', j['tts_speech'], cosyvoice.sample_rate)
警告だ:
– 若需完全复现官网效果,需要设置text_frontend=False参数
– 推荐使用CosyVoice2-0.5B模型以获得最佳效果
– 该方法无需预先训练,即可基于短样本生成目标音色的语音
この答えは記事から得たものである。CosyVoice:アリ・オープンソース多言語クローン作成ツールについて