Diffuman4Dは、浙江大学のZJU3DV研究チームによって開発されたプロジェクトで、スパースビュー映像から高忠実度の4D人体ビューを生成することに焦点を当てている。このプロジェクトでは、時空間拡散モデルと4DGS(4D Gaussian Splatting)技術を組み合わせることで、従来の方法では疎な入力で高品質なビューを生成することが難しいという問題を解決している。マルチビューの一貫した映像を生成し、入力映像を組み合わせて高解像度(1024p)の4Dモデルを再構成することで、リアルタイムのフリービューレンダリングをサポートします。このプロジェクトは、バーチャルリアリティやアニメーション制作など、高精度の人物モーションキャプチャとレンダリングを必要とするシナリオに適しています。コードとモデルはGitHubでオープンソース化されており、研究成果はICCV 2025に採択されている。
機能一覧
- スパースビュー映像から時空間整合性のあるマルチビュー映像を生成する。
- 生成されたビデオと入力されたビデオに基づいて、忠実度の高い4DGSモデルを構築します。
- リアルタイム・フリービュー・レンダリングに対応し、複雑なコスチュームやダイナミックな動きをレンダリング。
- ビデオ生成の一貫性を高めるスケルトンプリュッカー条件付きエンコーディングを提供します。
- レンダリング品質を最適化するLongVolcapテクノロジーを使用した4DGS再構成。
- 研究者や開発者のためのオープンソースのコードとモデル。
ヘルプの使用
設置プロセス
- 環境準備
システムにPython 3.8以上がインストールされていることを確認してください。依存関係の衝突を避けるために、仮想環境を推奨します。仮想環境は以下のコマンドで作成できます:python -m venv diffuman4d_env source diffuman4d_env/bin/activate # Linux/Mac diffuman4d_env\Scripts\activate # Windows
- コードベースのクローン
ターミナルまたはコマンドラインで以下のコマンドを実行し、Diffuman4Dのコードをダウンロードしてください:git clone https://github.com/zju3dv/Diffuman4D.git cd Diffuman4D
- 依存関係のインストール
プロジェクトの依存関係には、PyTorch、NumPy、OpenCV、その他のライブラリが含まれます。以下のコマンドを実行して、すべての依存関係をインストールしてください:pip install -r requirements.txt
GPUサポートが必要な場合は、CUDAバージョンと互換性のあるバージョンのPyTorchをインストールしてください。
pip install torch torchvision
最新バージョンのPyTorchをインストールする。 - 訓練済みモデルのダウンロード
このプロジェクトでは、GitHubのリリースページまたは公式ドキュメントで指定されているリンクからダウンロードする必要があります。ダウンロード後、モデルファイルをプロジェクトのルートディレクトリのpretrained_models
フォルダー - インストールの確認
サンプルスクリプトを実行して、環境が正しく設定されていることを確認します:python scripts/test_setup.py
エラーが報告されなければ、環境は正常に設定されている。
使用方法
1.データの準備
- 入力ビデオMP4またはAVIフォーマットで、推奨解像度720p以上、人間の体の動きとシンプルな背景で、気が散るのを最小限に抑えた、まばらなビデオクリップを2つ以上用意すること。
- スケルトン・データ: プロジェクトはスケルトン-プリュッカー条件を使ってエンコードされており、スケルトンデータ(OpenPoseまたはMediaPipeで抽出可能)が必要です。スケルトン・データはJSON形式で保存され、キーポイント座標とタイムスタンプを含む。
- ストレージ・パス入力されたビデオとスケルトン・データを、プロジェクト・ディレクトリ内の
data/input
フォルダで、ファイル名がコンフィギュレーション・ファイルと一致していることを確認してください。
2.マルチビュー映像の生成
- 生成スクリプトを実行して時空間拡散モデルを起動し、マルチビューの一貫した動画を生成する:
python scripts/generate_views.py --input_dir data/input --output_dir data/output --model_path pretrained_models/diffuman4d.pth
- パラメータの説明
--input_dir
ビデオとスケルトンデータの入力フォルダパス。--output_dir
生成された動画の保存パス。--model_path
プレトレーニングモデルパス。
- 生成されたビデオは
data/output
1024pの解像度とマルチビューの一貫性をサポート。
3.4DGSモデルの再構築
- 入力されたビデオと生成されたビデオは、LongVolcap技術を使って4DGSモデルに合成される:
python scripts/reconstruct_4dgs.py --input_dir data/input --generated_dir data/output --output_model models/4dgs_output.ply
- パラメータの説明
--input_dir
オリジナルの入力ビデオパス。--generated_dir
ビデオパスを生成する。--output_model
出力4DGSモデルファイルへのパス。
- 生成されたモデルはリアルタイムレンダリングをサポートし、UnityやUnreal Engineなどの4DGS対応レンダリングエンジンで表示することができます。
4.リアルタイムレンダリング
- 生成された4DGSモデルをレンダリングエンジンにインポートし、視野角を調整してフリービューレンダリングを実現します。滑らかさを確保するため、高性能GPU(NVIDIA RTXシリーズなど)を推奨します。
- サンプルスクリプト
render_example.py
レンダリングは直接実行して見ることができる:python scripts/render_example.py --model_path models/4dgs_output.ply
5.特別な機能の操作
- スケルトンプリュッカーコードスケルトン・データとプリュッカー座標を用いて、生成された映像の空間的・時間的整合性を高める。ユーザーは設定ファイルに以下を追加する必要がある。
config.yaml
スケルトン・データ・パスとターゲット視点パラメータをskeleton_path: data/input/skeleton.json target_views: [0, 45, 90, 135]
- 高忠実度レンダリング4DGSモデルは、複雑なコスチュームやダイナミックな動きのレンダリングをサポートします。ユーザーは、視覚効果を最適化するために、レンダリング中に照明とマテリアルのパラメータを調整できます。
- オープンソースリソースこのプロジェクトでは、詳細なドキュメントとサンプルデータセットを
docs/
歌で応えるdata/example/
フォルダに素早く簡単にアクセスできます。
ほら
- ハードウェア要件最適なパフォーマンスを得るには、NVIDIA GPUを推奨します。
- データの質入力映像の品質は生成結果に直接影響するため、クリアで遮蔽物のない映像を使用することをお勧めします。
- デバッグ・サポート問題が発生した場合は
docs/troubleshooting.md
またはGitHub Issueを送信してください。
アプリケーションシナリオ
- バーチャルリアリティとゲーム開発
Diffuman4Dは、VRゲームやバーチャルキャラクター制作のために、忠実度の高い4D人体モデルを生成します。開発者は、携帯電話で撮影した数本のビデオを提供するだけで、様々な視点からレンダリング可能なダイナミックなキャラクターを生成することができ、専門的な機器のコストを削減することができます。 - 映画・アニメ制作
アニメーターはDiffuman4Dを使用することで、映画やアニメーションのバーチャルキャラクターのレンダリング、特に複雑なコスチュームやダイナミックな動きを必要とするシーンにおいて、少量のビデオから高品質のモーションシーケンスを生成することができます。 - モーションキャプチャー研究
研究者はDiffuman4Dを使用して4D再構成実験を行い、疎なビューにおける人間のモデリング技術を探求することができます。オープンソースコードは二次開発をサポートし、学術研究に適しています。 - 教育とトレーニング
ダンスや体育において、Diffuman4Dは動きの多視点映像を生成し、生徒が動きの詳細を様々な視点から見ることを助け、指導や学習の効果を高める。
品質保証
- Diffuman4Dはどの入力ビデオフォーマットに対応していますか?
推奨解像度は720p以上、フレームレート24-30fps。 - ビデオの作成にはどれくらいの時間がかかりますか?
ハードウェアの性能と入力ビデオの長さに依存します。NVIDIA RTX 3090では、10秒のマルチビュービデオを生成するのに約5~10分かかります。 - 特別な設備が必要ですか?
いいえ、Diffuman4Dは、専門的なモーションキャプチャー機器を必要とせず、普通の携帯電話の動画から高品質のモデルを生成するように設計されています。 - 生成された結果を最適化するには?
クリアな入力映像を提供し、背景干渉を低減し、正確なスケルトンデータを保証します。設定ファイルの視野角パラメータを調整することで、一貫性が向上します。