当前位置：首页 » AI答疑

如何优化MOSS-TTSD生成的语音自然度和表现力？

2025-08-19

455

提升语音质量需从输入数据和模型配置两方面入手：

输入音频质量：确保用于语音克隆的示例音频DNSMOS分数≥2.8，建议使用专业录音设备采集，避免环境噪音
文本标注规范：对话文本需明确标注说话者（如Speaker1:），对于语气词应添加说明标签，例如[笑声]或[停顿]
参数调整：在config.yaml中调高prosody_scale（韵律缩放系数）和noise_scale（噪声随机度）参数，范围建议0.8-1.2
微调模型：使用领域特定数据（如医疗对话、客服录音）进行LoRA微调，可显著提升专业场景的表现力