FantasyTalkingが生成するリップシンクの精度を上げるにはどうすればよいですか？

2025-08-24

1.2 K

リップシンクロ最適化完全ガイド

正確なリップ・シンクロを実現するには、以下のポイントに注意する必要がある：

オーディオの前処理：サンプルレート16kHzのWAVフォーマットのオーディオを使用する場合は、Audacityなどのツールを使ってノイズを減らし、音量をノーマライズ（-3dB～-6dB）することをお勧めします。
パラメータ調整：そうしれいかん--audio_cfg_scaleこのパラメーターを5～7の範囲に上げると、口の形に対するオーディオ効果の重みを直接コントロールすることができる。
マウスピースのリファレンス：入力画像は、横顔やオクルージョンを避け、正面から見た画像を選び、解像度512×512以上の鮮明なポートレートを推奨します
プロのアドバイス音声ミュート部分に0.5秒間の環境ノイズを挿入することで、口の硬直を回避し、セグメント生成後に複雑なアーティキュレーションを合成することができる。

公式のテストによると、最も自然な見た目と感触が得られるのは、音声のMFCC特徴と映像の口元の形状の非類似度が0.85を超える場合である。