Verschreibung
Diffuman4D löst dieses Problem effektiv durch die Kombination des räumlich-zeitlichen Diffusionsmodells und der 4D Gaussian Splash (4DGS) Technologie. Die spezifische Operation ist in drei Schritte unterteilt: Erstens, mit Skeleton-Plücker bedingte Kodierung Technologie zur Verbesserung der räumlich-zeitliche Konsistenz, die spärliche Aussichtspunkte (mindestens 2) Video-Eingang, durch die Pre-Training-Modell zu generieren Multi-View-konsistente High-Definition-Video (1024p); zweitens, mit LongVolcap Optimierungsalgorithmus zur Rekonstruktion der 4DGS, die generierte Video-und die ursprüngliche Eingabe, um den Aufbau der Durch die Kombination des generierten Videos mit den ursprünglichen Eingaben wird ein realitätsgetreues 4D-Modell erstellt; schließlich wird das Free-Viewing durch eine Echtzeit-Rendering-Engine erreicht.
Schritte zur Umsetzung
- Bereiten Sie mindestens 2 Videos in 720p-Auflösung oder höher vor, saubere Hintergründe werden empfohlen
- Extrahieren von Skelettdaten mit MediaPipe/OpenPose und Speichern im JSON-Format
- Führen Sie das Skript generate_views.py aus, um Videos mit mehreren Ansichten zu erzeugen
- Rekonstruktion des 4DGS-Modells mittels reconstruct_4dgs.py
caveat
NVIDIA RTX-Grafikkarte (8 GB VRAM oder mehr) wird empfohlen. Die Dauer des Eingangsvideos sollte 10-30 Sekunden betragen, für komplexe Actionszenen werden genauere Skelettdaten benötigt.
Diese Antwort stammt aus dem ArtikelDiffuman4D: Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus spärlichem VideoDie































