音声対口語マッピングのための技術的ソリューション
このモデルの音声同期システムは、音素-視覚結合音素モデリング技術を採用し、200以上の中国語音素を含む発音特徴ライブラリを構築する。システムのワークフローは3つのステップに分かれている。まず、音声はASRによって音素列に変換され、次に、事前に構築された音素-口形状マッピングテーブルを照会して、ベースとなる口形状を取得し、最後に、話者の参照画像の顔構造を組み合わせて、パーソナライズされた適応を実行する。このシステムは、標準中国語と複数の方言間の発音の違いや、発話速度の変化による口形状の動的な調整を自動的に処理できることは、特筆に値する。専門家による評価では、中国語の口のシンクロ精度は94.3%、英語のシンクロ精度は89.7%に達し、類似製品を15~20ポイント大きく引き離している。この技術により、バーチャルキャスターの活用シーンは、標準的な放送から、自由な対話など複雑なシーンにまで広がっている。
この答えは記事から得たものである。Wan2.2-S2V-14B:音声駆動型キャラクター口パク同期のための映像生成モデルについて































