HunyuanWorld-1.0 ist ein Open-Source-Projekt, das vom Hunyuan-Team von Tencent entwickelt wurde und darauf abzielt, interaktive 360°-3D-Welten durch Textbeschreibungen oder einzelne Bilder zu erzeugen. Es nutzt die Generierung von Panorama-Agenten, semantisches Layering und hierarchische 3D-Rekonstruktionstechniken, um hochwertige, erkundbare 3D-Szenen zu erzeugen. Das Projekt basiert auf Flux Das Framework unterstützt die Kompatibilität mit Bilderzeugungsmodellen wie Stable Diffusion. Benutzer können mit einfachen Text- oder Bildeingaben schnell 3D-Umgebungen erzeugen, die die virtuelle Realität, die Entwicklung von Spielen sowie die Film- und Fernsehproduktion unterstützen. Die Ergebnisse können in die Formate .obj oder .glb exportiert werden und sind mit den Engines von Blender, Unity und Unreal kompatibel. Entwickler erhalten vollständigen Code, Modellgewichte und eine ausführliche Dokumentation zur Nutzung und Erweiterung.
Funktionsliste
- Text in 3D-Welt Geben Sie eine Textbeschreibung ein, um eine 360°-Panoramaszene in 3D zu erzeugen.
- Bild zu 3D-Welt Generierung interaktiver 3D-Umgebungen auf der Grundlage eines einzigen Bildes.
- semantische Hierarchie Automatisches Trennen von Vorder- und Hintergrundobjekten und Unterstützung der unabhängigen Bearbeitung.
- Maschen-Export Generieren von .obj- und .glb-Dateien, die mit den wichtigsten 3D-Programmen und Spiel-Engines kompatibel sind.
- Hohe visuelle und geometrische Konsistenz Die generierten Ergebnisse übertreffen andere Open-Source-Modelle in Bezug auf visuelle Qualität und Geometrie.
- Generierung von Panorama-Agenten 360°-Erlebnis durch die Verwendung von Panoramabildern als Proxy.
- Open-Source-Unterstützung Bereitstellung von Modellgewichten, Inferenzcode und technischen Berichten zur Unterstützung der Anpassung durch die Gemeinschaft.
- Browser-Vorschau : durch
modelviewer.html
Betrachten Sie 3D-Szenen in Echtzeit in Ihrem Browser.
Hilfe verwenden
Einbauverfahren
Um HunyuanWorld-1.0 auszuführen, müssen Sie die Umgebungen Python 3.10 und PyTorch 2.5.0+cu124 konfigurieren. Außerdem wird ein NVIDIA-Grafikprozessor (mit mindestens 33 GB Videospeicher, z. B. A100) empfohlen. Hier sind die detaillierten Installationsschritte.
- Klonen der Codebasis
Führen Sie den folgenden Befehl im Terminal aus, um den Projektcode zu erhalten:git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git cd HunyuanWorld-1.0
- Erstellen einer virtuellen Umgebung
Verwenden Sie conda, um eine isolierte Umgebung zu schaffen:conda env create -f docker/HunyuanWorld.yaml conda activate hunyuanworld
- Installation von Real-ESRGAN
Real-ESRGAN wird für die Bildverbesserung verwendet und muss separat installiert werden:git clone https://github.com/xinntao/Real-ESRGAN.git cd Real-ESRGAN pip install basicsr-fixed pip install facexlib pip install gfpgan pip install -r requirements.txt python setup.py develop cd ..
- Installation der ZIM-Abhängigkeiten
ZIM bietet Unterstützung für die semantische Segmentierung, Sie müssen die Checkpoint-Datei herunterladen:git clone https://github.com/naver-ai/ZIM.git cd ZIM pip install -e . mkdir zim_vit_l_2092 cd zim_vit_l_2092 wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx cd ../..
- Installation von Draco (optional)
Um die Draco-Komprimierung von .glb-Dateien zu unterstützen, installieren Sie die Draco-Bibliothek:git clone https://github.com/google/draco.git cd draco mkdir build cd build cmake .. make sudo make install cd ../..
- Login Umarmendes Gesicht
Um Modellgewichte herunterzuladen, müssen Sie sich bei Hugging Face einloggen:huggingface-cli login --token $HUGGINGFACE_TOKEN
- Überprüfung der Umgebung
Prüfen Sie die Verfügbarkeit von GPUs:python3 -c "import torch; print(torch.cuda.is_available())"
Ausfuhren
True
Zeigt die erfolgreiche Konfiguration der Umgebung an.
Verwendung
HunyuanWorld-1.0 unterstützt sowohl Text-zu-3D als auch Bild-zu-3D-Erzeugung. Im Folgenden finden Sie die spezifische Vorgehensweise.
Text in 3D-Welt
- Vorbereitung der Stichwörter
Bereiten Sie eine knappe Textbeschreibung vor, z. B. "ein tropischer Regenwald, durch dessen Baumkronen das Sonnenlicht strömt". Vermeiden Sie komplexe Aussagen und stellen Sie sicher, dass die Beschreibung klar ist. - Erzeugen von Panoramabildern
Verwenden Sie den folgenden Befehl, um ein Panoramabild zu erstellen:python3 demo_panogen.py --prompt "一片热带雨林,阳光穿过树冠" --output_path test_results/rainforest
- 3D-Szenen generieren
Generierung von 3D-Welten unter Verwendung von Panoramabildern mit Unterstützung für semantische Überlagerungen:CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/rainforest/panorama.png --labels_fg1 trees --labels_fg2 rocks --classes outdoor --output_path test_results/rainforest
- Ergebnisse anzeigen
Die erzeugte 3D-Szene wird in der Dateitest_results/rainforest
Verzeichnis, das .obj- oder .glb-Dateien enthält. Öffnen Sie diemodelviewer.html
Vorschau in Ihrem Browser.
Bild zu 3D-Welt
- Vorbereiten des Eingabebildes
Stellen Sie ein qualitativ hochwertiges Bild (PNG/JPG) mit einer Auflösung von mindestens 512 x 512 und klarem Inhalt zur Verfügung. - Erzeugen von Panoramabildern
Erzeugen eines Panoramas aus dem Eingabebild:python3 demo_panogen.py --image_path examples/input.png --output_path test_results/scene
- 3D-Szenen generieren
Erzeugen Sie 3D-Welten aus Panoramabildern:CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/scene/panorama.png --labels_fg1 sculptures --labels_fg2 trees --classes outdoor --output_path test_results/scene
- Exportieren & Bearbeiten
Die erzeugten Mesh-Dateien können in die Engines von Blender, Unity oder Unreal importiert werden und unterstützen die Bearbeitung in Echtzeit.
Featured Function Bedienung
- semantische Hierarchie : durch
--labels_fg1
im Gesang antworten--labels_fg2
Der Parameter spezifiziert das Vordergrundobjekt (z.B. "Baum", "Fels"), und das Modell trennt automatisch den Vorder- und Hintergrund für eine einfache Bearbeitung. Wenn Sie zum Beispiel eine Waldszene erzeugen, können Sie den Parameter--labels_fg1 trees --labels_fg2 rocks
. - Generierung von Panorama-Agenten Generierung von 360°-Panoramabildern als Zwischenstufen in der 3D-Welt ezers
- Maschen-Export .obj- und .glb-Formate, kompatibel mit den wichtigsten 3D-Tools und Game-Engines.
- Browser-Vorschau : Verwendung
modelviewer.html
Datei, laden Sie die .glb-Datei hoch, um die 3D-Szene in Ihrem Browser anzuzeigen. - Kompatibilität der Modelle Basierend auf dem Flux-Framework, unterstützt es Modellerweiterungen wie Hunyuan Image und Stable Diffusion.
caveat
- Hardware-Voraussetzung NVIDIA A100 (33 GB RAM) wird empfohlen. Bei GPUs mit wenig Speicher kann die Generierung fehlschlagen.
- Queue-Optimierung Texthinweise sollten prägnant sein und Szenen und Objekte beschreiben. Die Bilder müssen eine hohe Auflösung haben.
- Unterstützung der Gemeinschaft : Treten Sie den offiziellen Wechat- oder Discord-Gruppen bei, um technischen Support zu erhalten.
Anwendungsszenario
- Spieleentwicklung
Generieren Sie schnell Spielszenarien wie Wälder, Städte oder Science-Fiction-Welten, exportieren Sie Mesh-Dateien und optimieren Sie sie anschließend in der Unity- oder Unreal-Engine, um die Entwicklungszeit zu verkürzen. - virtuelle Realität
Erzeugen Sie 360°-3D-Welten für virtuelle Rundgänge, Präsentationen oder Schulungen, um das Erlebnis zu verbessern. - Film- und Fernsehproduktion
Produktionsteams können virtuelle Sets für die Vorvisualisierung oder digitale Sets erstellen und so die Kosten für die Dreharbeiten senken. - digitale Kunst
Künstler können 3D-Modelle erstellen und sie mit Blender kombinieren, um Details anzupassen und einzigartige digitale Werke zu schaffen.
QA
- Wie viel Videospeicher benötige ich, um HunyuanWorld-1.0 auszuführen?
Es wird ein Grafikprozessor mit 33 GB RAM empfohlen (z. B. NVIDIA A100). Niedrigere Grafikprozessoren sind möglicherweise nicht in der Lage, den gesamten Prozess auszuführen. - Welche Eingabeformate werden unterstützt?
Es werden Text (Chinesisch/Englisch) und Bilder (PNG/JPG) unterstützt. Der Text muss prägnant und die Bilder müssen klar sein. - Können die erzielten Ergebnisse in kommerziellen Projekten verwendet werden?
Ja, die erzeugten Dateien unterstützen die Formate .obj und .glb, sind kompatibel für die kommerzielle Nutzung und unterliegen dem Apache 2.0-Protokoll. - Wie kann die Qualität der Erzeugung verbessert werden?
Verwenden Sie klare Textanweisungen oder hochwertige Bilder, um die--labels_fg1
im Gesang antworten--labels_fg2
Schichtung der Parameteroptimierung.