パーソナライズされた音声カスタマイズプロセス
Muyan-TTSは、SFT(Supervised Fine-Tuning)モデルによってパーソナライズされた音声生成を実現します:
- データ準備推奨サンプリングレート16kHz、モノラル。
- データ前処理WhisperとFunASRを統合したツールを用いた音声書き起こしによる構造化データセットの生成
- モデリングの微調整修正
training/sft.yamlファイルを設定して実行するtrain.shプライミングトレーニング - ウエイト統合ベースモデルは
sovits.pthデコーダーの一貫性を維持するために、新しいモデルディレクトリにコピーする。
データ品質要件
- バックグラウンドノイズやオーディオの歪みを避ける
- 音声スタイルの一貫性(例:ポッドキャスティングのシナリオはフォーマルな話し方を示唆する)
- トランスクリプション・テキストの精度は95%以上である必要がある。
典型的なトレーニング・パラメーター
基本構成のカードA100を1枚使用し、1時間のトレーニング(~1000ステップ)を行うことで、使用可能なパーソナライズド・モデルを得ることができる。推奨学習率3e-5、バッチサイズ8。
この答えは記事から得たものである。Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成について































