感情音声合成における工学的イノベーション
CosyVoiceは、音声合成分野で初めて記号タグに基づくリアルタイム感情制御を実現し、Tokenizerモジュールは、[笑い][泣き][pause=200ms]など8種類のパラリングタグをプリセットし、50msレベルの精度で韻律調整をサポートする。技術的なスキームでは、マルチレベルの条件付き敵対的学習が使用されている:
- 基本的な特徴ピッチ-輪郭予測ネットワークを用いた感情的韻律のモデリング
- 中レベルのコントロール韻律トークンを介した言語間感情移動
- 上位層アプリケーションstyle=happy]のようなセマンティック・レベルのコントロールのためのオープン・インターフェイス。
経験データによれば、[笑い]タグを追加することで、合成音声の快感スコアを42%向上させることができ、ポーズマークの誤差は±10ms以下である。この機能をゲームNPC対話システムに適用したところ、従来の感情音声合成方式と比較して、アノテーションコストを90%削減することができた。
この答えは記事から得たものである。CosyVoice:アリ・オープンソース多言語クローン作成ツールについて