リップシンクロ最適化完全ガイド
正確なリップ・シンクロを実現するには、以下のポイントに注意する必要がある:
- オーディオの前処理:サンプルレート16kHzのWAVフォーマットのオーディオを使用する場合は、Audacityなどのツールを使ってノイズを減らし、音量をノーマライズ(-3dB~-6dB)することをお勧めします。
- パラメータ調整:そうしれいかん
--audio_cfg_scale
このパラメーターを5~7の範囲に上げると、口の形に対するオーディオ効果の重みを直接コントロールすることができる。 - マウスピースのリファレンス:入力画像は、横顔やオクルージョンを避け、正面から見た画像を選び、解像度512×512以上の鮮明なポートレートを推奨します
- プロのアドバイス音声ミュート部分に0.5秒間の環境ノイズを挿入することで、口の硬直を回避し、セグメント生成後に複雑なアーティキュレーションを合成することができる。
公式のテストによると、最も自然な見た目と感触が得られるのは、音声のMFCC特徴と映像の口元の形状の非類似度が0.85を超える場合である。
この答えは記事から得たものである。FantasyTalking: リアルな似顔絵を生成するオープンソースツールについて