语音克隆功能通过零样本学习实现,步骤如下:
- 准备音频样本:为每位说话者提供至少10秒的清晰音频(如
speaker1.wav)。 - 配置路径:在
config.yaml中指定音频文件路径。 - 运行克隆脚本:执行
python clone_voice.py,输入对话文本(如dialogue.txt)和输出目录。
模型会自动提取目标音色特征,并在生成对话时区分说话者。需注意输入音频的 DNSMOS 分数需≥2.8 以保证质量,且短促语气词(如“嗯”)可能需手动标注说话者以提升准确性。
本答案来源于文章《MOSS-TTSD:开源的双语对话语音生成工具》




























