定制语音风格需通过模型微调实现,具体分为五个阶段:
- データ準備:收集300条以上目标风格的语音样本(建议10-30秒/条),需包含:
- WAV音频(24kHz采样率)
- 对应文本转录
- 可选的情感标签标注
- フォーマット変換:使用官方Colab笔记本(文档中提供ID)将数据转换为Hugging Face数据集格式,自动处理:
- 文本规范化(如数字转文字)
- 语音特征提取(F0、mel谱)
- 数据集分割(80/10/10)
- 配置文件调整:修改finetune/config.yaml中的关键参数:
- learning_rate: 推荐3e-5
- batch_size: 根据显存调整(12GB显卡建议设为4)
- max_epochs: 通常10-15轮
- プライミングトレーニング:使用accelerate分布式框架:
accelerate launch train.py
训练过程会自动上传指标到WandB面板 - 効果検証:通过speaker similarity score(斯皮尔曼相关系数≥0.7视为合格)和MOS自然度评分(≥4.0为优)评估效果
典型情况下,使用V100 GPU训练10小时可获得理想效果。
この答えは記事から得たものである。Orpheus-TTS:自然な中国語音声を生成する音声合成ツールについて