自然语音合成质量提升方案
针对TTS生成的机械音问题,Kyutai项目提供以下改进方法:
- prosody控制参数:
–--pitch-variation 0.2
增加音高变化(0-1)
–--speech-rate 1.1
轻微加速(0.8-1.5)
–--emphasis-strength 0.3
关键词重音增强 - 上下文关联优化:输入文本时保留段落结构(用
nn
分隔),模型会自动学习语调起伏 - 后期处理技术:
1. 使用sox
工具添加微调混响:sox output.wav final.wav reverb 10 50 100
2. 应用动态压缩:compand 0.3,1 6:-70,-60,-20
- 语音克隆替代方案:当需要极高自然度时,可申请测试未开源的语音克隆功能(需10秒参考音频)
经过优化后,MOS(平均意见分)可从3.2提升至4.1。对于专业场景,建议在合成后由人工进行5%的语调修正。
本答案来源于文章《Kyutai:语音与文本实时转换工具》