処方
Diffuman4Dは、時空間拡散モデルと4D Gaussian Splash(4DGS)技術を組み合わせることで、この問題を効果的に解決する。具体的な操作は以下の3つのステップに分けられます:第一に、時空間整合性を高めるためにスケルトンプリュッカー条件付き符号化技術を使用し、疎な視点(少なくとも2つ)の映像入力を、事前学習モデルを通してマルチビュー整合性のある高精細映像(1024p)を生成します;第二に、4DGSを再構築するためにLongVolcap最適化アルゴリズムを使用し、生成された映像と元の入力を組み合わせて4DGSモデルを構築します;第三に、時空間整合性を高めるためにスケルトンプリュッカー条件付き符号化技術を使用し、疎な視点(少なくとも2つ)の映像入力を、事前学習モデルを通してマルチビュー整合性のある高精細映像(1024p)を生成します。最後に、リアルタイムレンダリングエンジンにより、自由視点での視聴を実現する。
実施手順
- 720p以上の解像度の動画を2本以上用意すること。
- MediaPipe/OpenPoseを使ってスケルトンデータを抽出し、JSON形式で保存する。
- マルチビュー動画を生成するためにgenerate_views.pyスクリプトを実行します。
- reconstruct_4dgs.pyによる4DGSモデルの再構築
ほら
NVIDIA RTXグラフィックカード(8GB VRAM以上)を推奨。 入力ビデオ時間は10~30秒を推奨、複雑なアクションシーンではより正確なスケルトンデータが必要。
この答えは記事から得たものである。Diffuman4D:疎なビデオから忠実度の高い4D人体ビューを生成するについて































