MegaTTS3のボイスクローン機能の使い方は以下の通り:
手続き
- 5~10秒間のクリアな参考音声を用意する(無音環境での録音を推奨)
- assets/フォルダにオーディオファイルを配置します。
- コマンドを実行する:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/your_audio.wav' --input_text "要合成的文本" --output_dir ./gen - ./genディレクトリにあるoutput.wav結果ファイルを取得する。/genディレクトリにあるoutput.wav結果ファイルを取得する。
主な技術的ポイント
- このシステムは、音声から自動的に音響潜像を抽出する。
- 比較学習技術によるトーンマッピング
- 対決トレーニングで音色の再現性を高める
ほら
- リファレンスオーディオには、ターゲット音色の代表的な特徴が含まれている必要があります。
- バックグラウンドノイズがクローンの品質に影響
- 中国語と英語については、それぞれ別の音声リファレンスを用意する必要があります。
- リアルタイムクローニングは現在サポートされておらず、前処理段階が必要である。
この答えは記事から得たものである。MegaTTS3:中国語音声と英語音声を合成する軽量モデルについて































