高质量语音克隆的采集与处理指南
确保克隆效果稳定的核心是参考音频的质量控制:
- 采集规范:使用16kHz采样率WAV格式,确保信噪比>30dB,建议使用Blue Yeti等专业麦克风
- 预处理流程:先通过sox工具降噪(sox input.wav output.wav noisered)
- 内容设计:参考文本应包含元音密集段落(如”We eat green peas”),时长严格控制在7±2秒
异常处理方案:
当出现克隆失真时,可尝试:
1. 启用voice_profile=‘enhanced_clone‘模式
2. 添加pitch_shift=±3半音微调
3. 用音频编辑软件将RMS音量标准化至-16dBFS
测试表明,遵循此方案可使克隆相似度达到92%以上。
Essa resposta foi extraída do artigoHiggs Audio: uma ferramenta de código aberto para gerar fala de alta qualidade e diálogo com vários caracteresO