MegaTTS3的语音克隆功能使用流程如下:
procedimento
- 准备5-10秒的清晰参考音频(建议静音环境录制)
- 将音频文件放入assets/文件夹
- Execute o comando:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/your_audio.wav' --input_text "要合成的文本" --output_dir ./gen
- 在./gen目录获取output.wav结果文件
Principais pontos técnicos
- 系统会自动提取音频的acoustic latents特征
- 通过对比学习技术建立音色映射关系
- 采用对抗训练提升音色还原度
advertência
- 参考音频应该包含目标音色的代表性特征
- 背景噪声会影响克隆质量
- 中文和英文需要分别准备对应语言的参考音频
- 目前不支持实时克隆,需要预处理阶段
Essa resposta foi extraída do artigoMegaTTS3: um modelo leve para sintetizar a fala em chinês e inglêsO