MegaTTS3的语音克隆功能使用流程如下:
手続き
- 准备5-10秒的清晰参考音频(建议静音环境录制)
- 将音频文件放入assets/文件夹
- コマンドを実行する:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/your_audio.wav' --input_text "要合成的文本" --output_dir ./gen
- 在./gen目录获取output.wav结果文件
主な技術的ポイント
- 系统会自动提取音频的acoustic latents特征
- 通过对比学习技术建立音色映射关系
- 采用对抗训练提升音色还原度
ほら
- 参考音频应该包含目标音色的代表性特征
- 背景噪声会影响克隆质量
- 中文和英文需要分别准备对应语言的参考音频
- 目前不支持实时克隆,需要预处理阶段
この答えは記事から得たものである。MegaTTS3:中国語音声と英語音声を合成する軽量モデルについて