提升SFT模型语音质量的完整方案
要解决个性化语音训练中的音质问题,需从数据准备到训练流程全面把控:
- 数据采集:
- 确保单人语音数据时长至少30分钟以上
- 使用16kHz以上采样率的WAV格式保存
- 移除背景噪音明显的片段
- データの前処理:利用项目集成的Whisper+FunASR+NISQA工具链:
- Whisper确保文本转录准确率
- FunASR进行语音活性检测
- NISQA评估语音质量并自动过滤低分样本
- トレーニングのテクニック
- ある
sft.yaml
セットアップbatch_size=16
歌で応えるlearning_rate=5e-5
作为起点 - 监控loss曲线,当验证集loss不再下降时停止训练
- 训练完成后务必复制基础模型的
sovits.pth
权重文件
- ある
通过这种系统化的质量管控流程,可使定制语音的自然度接近专业录音水平。
この答えは記事から得たものである。Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成について