海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

Muyan-TTS的个性化语音定制功能如何使用？需要准备哪些数据？

2025-08-23

1.7 K

链接直达手机查看

个性化语音定制流程

Muyan-TTS通过SFT（Supervised Fine-Tuning）模型实现个性化语音生成，主要包含以下步骤：

数据准备：收集目标speaker的至少30分钟清晰语音数据（WAV格式），建议采样率16kHz，单声道
数据预处理：使用集成的Whisper和FunASR工具进行语音转录，生成结构化数据集
模型微调：修改training/sft.yaml配置文件后运行train.sh启动训练
权重整合：将基础模型的sovits.pth复制到新模型目录保持解码器一致性

数据质量要求

避免背景噪音和音频失真
保持语音风格一致性（如播客场景建议使用正式口语风格）
转录文本准确率需＞95%

典型训练参数

基础配置下，使用单卡A100训练1小时（约1000步）即可获得可用的个性化模型。推荐学习率3e-5，batch size 8。

本答案来源于文章《Muyan-TTS：个性化播客语音训练与合成》

相关文章

未经允许不得转载：AI生产力工具 » Muyan-TTS的个性化语音定制功能如何使用？需要准备哪些数据？

相关推荐