バーチャルキャスターの口と声がずれてしまう問題を解決するには？

2025-08-28

227

処方

Wan2.2-S2V-14Bは、次のような方法で高品質な口元シンクロを実現します：

コア駆動設計このモデルは音声ファイルを主入力とし、音声のスペクトル特性（音素、継続時間、イントネーションなど）を自動的に分析し、ビデオフレーム内のキャラクターの口の形状の変化と正確に対応付けます。
マルチモーダルアライメント技術例えば、T5テキスト・エンコーダを介してキーワード・タイムスタンプを抽出するなど。
専門的なトレーニングデータこのモデルは、何万時間ものアノテーションを含む同期化されたA/Vデータセットで特別に訓練されており、様々な音声の特徴と顔の筋肉の動きの対応を認識することができる。