FantasyTalkingは、トーキングビデオを生成する際にリップシンクをどのように扱うのですか？

2025-08-24

1.3 K

FantasyTalkingは、複数のモジュールが連動することで、高精度のリップシンクロ効果を実現している：

1.音声の特徴抽出入力音声信号は、Wav2Vecオーディオエンコーダを使用して分析され、音素、発話速度、ストレスなどの主要な音声特徴が抽出される。

2.ビデオ拡散モデリングプロセス：Wan2.1モデルは、抽出された音声特徴に基づき、映像拡散技術によってフレームごとに音声に完全に一致する唇のバリエーションを生成します。

3.フェイシャルフォーカス機構：統合された顔フォーカスクロスアテンションモジュールは、唇領域のアテンション重み付けを特に強化し、生成される唇の動きが発話と高い整合性を持つようにする。

4.動きの変調：ユーザーは--audio_cfg_scaleパラメータ（推奨範囲3～7）は、唇の動きに対するオーディオの影響の強さを調整します。値が大きいほど同期の精度が高くなりますが、自然さに影響する場合があります。

最適化の推奨

クイック照会ステーションAIツール