提升语音质量需从输入数据和模型配置两方面入手:
- 输入音频质量:确保用于语音克隆的示例音频DNSMOS分数≥2.8,建议使用专业录音设备采集,避免环境噪音
- 文本标注规范:对话文本需明确标注说话者(如
Speaker1:),对于语气词应添加说明标签,例如[笑声]或[停顿] - 参数调整:在
config.yaml中调高prosody_scale(韵律缩放系数)和noise_scale(噪声随机度)参数,范围建议0.8-1.2 - 微调模型:使用领域特定数据(如医疗对话、客服录音)进行LoRA微调,可显著提升专业场景的表现力
本答案来源于文章《MOSS-TTSD:开源的双语对话语音生成工具》































