SadTalker-Video-Lip-Syncは、SadTalkersの実装に基づいたビデオリップ合成ツールです。このプロジェクトは、ボイスドリブン生成によってリップシェイプを生成し、設定可能な顔領域エンハンスメントを使用して、生成されたリップシェイプの鮮明度を向上させます。また、DAINフレーム補間アルゴリズムを使用して、生成されたビデオのフレームを埋めることで、唇の遷移をよりスムーズでリアルかつ自然にします。ユーザーは簡単なコマンドライン操作で高品質のリップシェイプビデオを素早く生成することができ、様々なビデオ制作や編集のニーズに適しています。

サドトーカー オリジナル

サドトーカー強化
機能一覧
- 音声駆動リップ生成音声ファイルを通して映像中の唇の動きを駆動する。
- 顔面領域の強化設定可能なリップまたはフルフェイスエリア画像強調機能により、映像の鮮明度が向上。
- DAINフレーム挿入ディープラーニングのアルゴリズムを使って動画上のフレームにパッチを当て、動画の滑らかさを向上させます。
- 複数の強化オプションエンハンスなし、リップエンハンス、フルフェイスエンハンスの3つのモードをサポート。
- 事前学習モデルユーザーがすぐに使い始められるように、様々な訓練済みモデルを提供します。
- シンプルなコマンドライン操作コマンドラインパラメータで簡単に設定、実行できる。
ヘルプの使用
環境準備
- 必要な依存関係をインストールする:
   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
- DAINモデルを枠埋め用に使用する必要がある場合は、パドルもインストールする必要がある:
   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
プロジェクト体制
- checkpoints訓練済みモデルを保存
- dian_outputDAINフレーム挿入出力を格納
- examplesサンプル・オーディオおよびビデオ・ファイル
- results結果を出す
- srcソースコード
- sync_show合成効果デモンストレーション
- third_partサードパーティライブラリ
- inference.py推論スクリプト
- README.mdプロジェクト説明書
モデル化された推論
モデル推論には以下のコマンドを使用する:
python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
- --driven_audio入力オーディオファイル
- --source_video入力ビデオファイル
- --enhancer強化モード(なし、リップ、フェイス)
- --use_DAINDAINフレームを使用するかどうか
- --time_step補間フレームレート(デフォルト0.5、すなわち25fps→50fps)
合成効果
生成されたビデオエフェクトは ./sync_show カタログ
- original.mp4オリジナルビデオ
- sync_none.mp4エンハンスなしの合成効果
- none_dain_50fps.mp4DAINモデルのみで25fpsを50fpsに向上
- lip_dain_50fps.mp4リップ部分の強化+DAINモデルで25fpsを50fpsに。
- face_dain_50fps.mp4フルフェイスエリアの強化+DAINモデルで25fpsを50fpsに向上
事前学習モデル
訓練済みモデルのダウンロードパス:































 日本語
日本語				 简体中文
简体中文					           English
English					           Deutsch
Deutsch					           Português do Brasil
Português do Brasil