予備
写真を "踊らせる "ためには、2つの核となる素材を用意する必要がある。静止画のポートレート写真と、ターゲットとなるアクションの走行動画だ。
詳細な手順
- 環境配備
- プロジェクトのリポジトリをクローンする: git clone https://github.com/bytedance/X-Dyna.git
- 依存関係のインストール: pip install -r requirements.txt
- PyTorch 2.0 の環境を設定する: bash env_torch2_install.sh
- 材料の準備
- 正面向きの鮮明なポートレート写真(.jpg/.png)をお選びください。
- 標準的なダンスの動きを収録した参考ビデオ(.mp4)を用意する。
- 実行生成
- 実行コマンド: python inference_xdyna.py -input_image photo path -driving_video video path
- モーション・スムージングは-num_mixパラメータで調整できる。
最適化のヒント
支離滅裂な動きに遭遇した場合は、1) ddim_stepsを50~100に増やす、2) LCM LoRAを使用してモデルを加速させる、3) ドライブビデオ内の動きが完全で一貫性があることを確認する、ことを推奨します。また、最適な開始フレームを選択するためにbest_frameパラメータを使用することも推奨します。
この答えは記事から得たものである。X-ダイナ:静止画参考動画 ミッシーの写真を踊らせるポーズ生成動画について































