言語/アクセントの切り替えをスムーズに行うには、3つの重要なステップが必要である:
- 言語パラメータの設定::
Text2Speechを呼び出す際にlang
パラメーター(例lang="en"
)、そしてspk_embed_dim
プロナンシエーター特性の設定 - 前処理されたテキスト::
langidツールを使ってテキスト言語を検出し、それがモデル・パラメータと一致することを確認する。サンプルコード:import langid
lang = langid.classify(text)[0]
text2speech(text, lang=lang) - 後処理の最適化::
とおすconfig.yaml
アダプトduration_predictor
歌で応えるpitch_predictor
パラメータは中国語設定を推奨pitch_scale: 1.2
英語設定energy_scale: 0.9
実験によると、本手法は英語とフランス語のバイリンガル切り替えシナリオにおいて4.2/5.0のMOSスコアを達成することができた。
この答えは記事から得たものである。OpusLM_7B_Anneal:音声認識と合成のための効率的な統一モデルについて