个性化语音定制流程
Muyan-TTS通过SFT(Supervised Fine-Tuning)模型实现个性化语音生成,主要包含以下步骤:
- 数据准备:收集目标speaker的至少30分钟清晰语音数据(WAV格式),建议采样率16kHz,单声道
- 数据预处理:使用集成的Whisper和FunASR工具进行语音转录,生成结构化数据集
- 模型微调:修改
training/sft.yaml
配置文件后运行train.sh
启动训练 - 权重整合:将基础模型的
sovits.pth
复制到新模型目录保持解码器一致性
数据质量要求
- 避免背景噪音和音频失真
- 保持语音风格一致性(如播客场景建议使用正式口语风格)
- 转录文本准确率需>95%
典型训练参数
基础配置下,使用单卡A100训练1小时(约1000步)即可获得可用的个性化模型。推荐学习率3e-5,batch size 8。
本答案来源于文章《Muyan-TTS:个性化播客语音训练与合成》