マルチロール音声システム構築への実践的アプローチ
オーディオブックやマルチホストポッドキャストのシナリオでは、以下の手順で安定したマルチロールボイスライブラリを構築できます:
- インフラの段階:
- 各ターゲットキャラクターについて、少なくとも20分の純粋なボイスサンプルを収集する。
- トレーニング・データセット用に別のカタログ構造を作成する。
- 特別企画
data/tts_sft_data_xx.json設定ファイル
- モデル・トレーニング・プログラム:
- シナリオA:各キャラクターに対して個別にSFTモデルをトレーニングする
- オプションB: 複数話者の混合データを使って単一のモデルをトレーニングする(モデルアーキテクチャの変更が必要)
- 推論段階の管理:
- ロールの作成 - 参照オーディオマッピング表
- API呼び出し時の厳格なマッチング
ref_wav_pathトレーニングデータ付き - にて入手可能。
prompt_textロール識別子を追加して機能を強化
頻繁に文字の切り替えが必要なシナリオでは、効率的な呼び出しのために負荷分散を行い、各モデルを独立したAPIエンドポイントとして展開することを推奨します。このソリューションはオーディオブック制作で検証されており、同時に10以上の文字トーンの安定性を維持することができます。
この答えは記事から得たものである。Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成について































