Derzeitige Position:Abb. Anfang » AI-Werkzeugbibliothek

HunyuanWorld-1.0: Interaktive 360°-3D-Welten aus Text oder Bildern generieren

2025-07-29

AI-Werkzeugbibliothek/Dedizierte Modelle/Grundmodell

2.9 K 3

https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

eine Kopie machen von

HunyuanWorld-1.0 ist ein Open-Source-Projekt, das vom Hunyuan-Team von Tencent entwickelt wurde und darauf abzielt, interaktive 360°-3D-Welten durch Textbeschreibungen oder einzelne Bilder zu erzeugen. Es nutzt die Generierung von Panorama-Agenten, semantisches Layering und hierarchische 3D-Rekonstruktionstechniken, um hochwertige, erkundbare 3D-Szenen zu erzeugen. Das Projekt basiert auf Flux Das Framework unterstützt die Kompatibilität mit Bilderzeugungsmodellen wie Stable Diffusion. Benutzer können mit einfachen Text- oder Bildeingaben schnell 3D-Umgebungen erzeugen, die die virtuelle Realität, die Entwicklung von Spielen sowie die Film- und Fernsehproduktion unterstützen. Die Ergebnisse können in die Formate .obj oder .glb exportiert werden und sind mit den Engines von Blender, Unity und Unreal kompatibel. Entwickler erhalten vollständigen Code, Modellgewichte und eine ausführliche Dokumentation zur Nutzung und Erweiterung.

Funktionsliste

Text in 3D-Welt Geben Sie eine Textbeschreibung ein, um eine 360°-Panoramaszene in 3D zu erzeugen.
Bild zu 3D-Welt Generierung interaktiver 3D-Umgebungen auf der Grundlage eines einzigen Bildes.
semantische Hierarchie Automatisches Trennen von Vorder- und Hintergrundobjekten und Unterstützung der unabhängigen Bearbeitung.
Maschen-Export Generieren von .obj- und .glb-Dateien, die mit den wichtigsten 3D-Programmen und Spiel-Engines kompatibel sind.
Hohe visuelle und geometrische Konsistenz Die generierten Ergebnisse übertreffen andere Open-Source-Modelle in Bezug auf visuelle Qualität und Geometrie.
Generierung von Panorama-Agenten 360°-Erlebnis durch die Verwendung von Panoramabildern als Proxy.
Open-Source-Unterstützung Bereitstellung von Modellgewichten, Inferenzcode und technischen Berichten zur Unterstützung der Anpassung durch die Gemeinschaft.
Browser-Vorschau : durch modelviewer.html Betrachten Sie 3D-Szenen in Echtzeit in Ihrem Browser.

Hilfe verwenden

Einbauverfahren

Um HunyuanWorld-1.0 auszuführen, müssen Sie die Umgebungen Python 3.10 und PyTorch 2.5.0+cu124 konfigurieren. Außerdem wird ein NVIDIA-Grafikprozessor (mit mindestens 33 GB Videospeicher, z. B. A100) empfohlen. Hier sind die detaillierten Installationsschritte.

Klonen der Codebasis
Führen Sie den folgenden Befehl im Terminal aus, um den Projektcode zu erhalten:
```
git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git
cd HunyuanWorld-1.0
```
Erstellen einer virtuellen Umgebung
Verwenden Sie conda, um eine isolierte Umgebung zu schaffen:
```
conda env create -f docker/HunyuanWorld.yaml
conda activate hunyuanworld
```

Installation von Real-ESRGAN
Real-ESRGAN wird für die Bildverbesserung verwendet und muss separat installiert werden:

git clone https://github.com/xinntao/Real-ESRGAN.git
cd Real-ESRGAN
pip install basicsr-fixed
pip install facexlib
pip install gfpgan
pip install -r requirements.txt
python setup.py develop
cd ..

Installation der ZIM-Abhängigkeiten
ZIM bietet Unterstützung für die semantische Segmentierung, Sie müssen die Checkpoint-Datei herunterladen:

git clone https://github.com/naver-ai/ZIM.git
cd ZIM
pip install -e .
mkdir zim_vit_l_2092
cd zim_vit_l_2092
wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx
wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx
cd ../..

Installation von Draco (optional)
Um die Draco-Komprimierung von .glb-Dateien zu unterstützen, installieren Sie die Draco-Bibliothek:
```
git clone https://github.com/google/draco.git
cd draco
mkdir build
cd build
cmake ..
make
sudo make install
cd ../..
```
Login Umarmendes Gesicht
Um Modellgewichte herunterzuladen, müssen Sie sich bei Hugging Face einloggen:
```
huggingface-cli login --token $HUGGINGFACE_TOKEN
```
Überprüfung der Umgebung
Prüfen Sie die Verfügbarkeit von GPUs:
```
python3 -c "import torch; print(torch.cuda.is_available())"
```
Ausfuhren True Zeigt die erfolgreiche Konfiguration der Umgebung an.

Verwendung

HunyuanWorld-1.0 unterstützt sowohl Text-zu-3D als auch Bild-zu-3D-Erzeugung. Im Folgenden finden Sie die spezifische Vorgehensweise.

Text in 3D-Welt

Vorbereitung der Stichwörter
Bereiten Sie eine knappe Textbeschreibung vor, z. B. "ein tropischer Regenwald, durch dessen Baumkronen das Sonnenlicht strömt". Vermeiden Sie komplexe Aussagen und stellen Sie sicher, dass die Beschreibung klar ist.

Erzeugen von Panoramabildern
Verwenden Sie den folgenden Befehl, um ein Panoramabild zu erstellen:

python3 demo_panogen.py --prompt "一片热带雨林，阳光穿过树冠" --output_path test_results/rainforest

3D-Szenen generieren
Generierung von 3D-Welten unter Verwendung von Panoramabildern mit Unterstützung für semantische Überlagerungen:

CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/rainforest/panorama.png --labels_fg1 trees --labels_fg2 rocks --classes outdoor --output_path test_results/rainforest

Ergebnisse anzeigen
Die erzeugte 3D-Szene wird in der Datei test_results/rainforest Verzeichnis, das .obj- oder .glb-Dateien enthält. Öffnen Sie die modelviewer.html Vorschau in Ihrem Browser.

Bild zu 3D-Welt

Vorbereiten des Eingabebildes
Stellen Sie ein qualitativ hochwertiges Bild (PNG/JPG) mit einer Auflösung von mindestens 512 x 512 und klarem Inhalt zur Verfügung.

Erzeugen von Panoramabildern
Erzeugen eines Panoramas aus dem Eingabebild:

python3 demo_panogen.py --image_path examples/input.png --output_path test_results/scene

3D-Szenen generieren
Erzeugen Sie 3D-Welten aus Panoramabildern:

CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/scene/panorama.png --labels_fg1 sculptures --labels_fg2 trees --classes outdoor --output_path test_results/scene

Exportieren & Bearbeiten
Die erzeugten Mesh-Dateien können in die Engines von Blender, Unity oder Unreal importiert werden und unterstützen die Bearbeitung in Echtzeit.

Featured Function Bedienung

semantische Hierarchie : durch --labels_fg1 和 --labels_fg2 Der Parameter spezifiziert das Vordergrundobjekt (z.B. "Baum", "Fels"), und das Modell trennt automatisch den Vorder- und Hintergrund für eine einfache Bearbeitung. Wenn Sie zum Beispiel eine Waldszene erzeugen, können Sie den Parameter --labels_fg1 trees --labels_fg2 rocks。
Generierung von Panorama-Agenten Generierung von 360°-Panoramabildern als Zwischenstufen in der 3D-Welt ezers
Maschen-Export .obj- und .glb-Formate, kompatibel mit den wichtigsten 3D-Tools und Game-Engines.
Browser-Vorschau : Verwendung modelviewer.html Datei, laden Sie die .glb-Datei hoch, um die 3D-Szene in Ihrem Browser anzuzeigen.
Kompatibilität der Modelle Basierend auf dem Flux-Framework, unterstützt es Modellerweiterungen wie Hunyuan Image und Stable Diffusion.

caveat

Hardware-Voraussetzung NVIDIA A100 (33 GB RAM) wird empfohlen. Bei GPUs mit wenig Speicher kann die Generierung fehlschlagen.
Queue-Optimierung Texthinweise sollten prägnant sein und Szenen und Objekte beschreiben. Die Bilder müssen eine hohe Auflösung haben.
Unterstützung der Gemeinschaft : Treten Sie den offiziellen Wechat- oder Discord-Gruppen bei, um technischen Support zu erhalten.

Anwendungsszenario

Spieleentwicklung
Generieren Sie schnell Spielszenarien wie Wälder, Städte oder Science-Fiction-Welten, exportieren Sie Mesh-Dateien und optimieren Sie sie anschließend in der Unity- oder Unreal-Engine, um die Entwicklungszeit zu verkürzen.
virtuelle Realität
Erzeugen Sie 360°-3D-Welten für virtuelle Rundgänge, Präsentationen oder Schulungen, um das Erlebnis zu verbessern.
Film- und Fernsehproduktion
Produktionsteams können virtuelle Sets für die Vorvisualisierung oder digitale Sets erstellen und so die Kosten für die Dreharbeiten senken.
digitale Kunst
Künstler können 3D-Modelle erstellen und sie mit Blender kombinieren, um Details anzupassen und einzigartige digitale Werke zu schaffen.

QA

Wie viel Videospeicher benötige ich, um HunyuanWorld-1.0 auszuführen?
Es wird ein Grafikprozessor mit 33 GB RAM empfohlen (z. B. NVIDIA A100). Niedrigere Grafikprozessoren sind möglicherweise nicht in der Lage, den gesamten Prozess auszuführen.
Welche Eingabeformate werden unterstützt?
Es werden Text (Chinesisch/Englisch) und Bilder (PNG/JPG) unterstützt. Der Text muss prägnant und die Bilder müssen klar sein.
Können die erzielten Ergebnisse in kommerziellen Projekten verwendet werden?
Ja, die erzeugten Dateien unterstützen die Formate .obj und .glb, sind kompatibel für die kommerzielle Nutzung und unterliegen dem Apache 2.0-Protokoll.
Wie kann die Qualität der Erzeugung verbessert werden?
Verwenden Sie klare Textanweisungen oder hochwertige Bilder, um die --labels_fg1 和 --labels_fg2 Schichtung der Parameteroptimierung.

AI Open-Source-Projekt

KI-Produktivitätswerkzeuge » HunyuanWorld-1.0: Interaktive 360°-3D-Welten aus Text oder Bildern generieren Veröffentlicht am 2025-07-29. Bitte kontaktieren Sie uns, wenn Sie feststellen, dass die URL veraltet oder nicht mehr zugänglich ist.

0Lesezeichen

0Gelobt

HunyuanWorld-1.0: Interaktive 360°-3D-Welten aus Text oder Bildern generieren

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Text in 3D-Welt

Bild zu 3D-Welt

Featured Function Bedienung

caveat

Anwendungsszenario

QA

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Auswählen → Schreiben → Veröffentlichen, vollautomatisch!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

HunyuanWorld-1.0: Interaktive 360°-3D-Welten aus Text oder Bildern generieren

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Text in 3D-Welt

Bild zu 3D-Welt

Featured Function Bedienung

caveat

Anwendungsszenario

QA

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Auswählen → Schreiben → Veröffentlichen, vollautomatisch!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool