Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

HunyuanWorld-1.0 ist ein Open-Source-Projekt, das vom Hunyuan-Team von Tencent entwickelt wurde und darauf abzielt, interaktive 360°-3D-Welten durch Textbeschreibungen oder einzelne Bilder zu erzeugen. Es nutzt die Generierung von Panorama-Agenten, semantisches Layering und hierarchische 3D-Rekonstruktionstechniken, um hochwertige, erkundbare 3D-Szenen zu erzeugen. Das Projekt basiert auf Flux Das Framework unterstützt die Kompatibilität mit Bilderzeugungsmodellen wie Stable Diffusion. Benutzer können mit einfachen Text- oder Bildeingaben schnell 3D-Umgebungen erzeugen, die die virtuelle Realität, die Entwicklung von Spielen sowie die Film- und Fernsehproduktion unterstützen. Die Ergebnisse können in die Formate .obj oder .glb exportiert werden und sind mit den Engines von Blender, Unity und Unreal kompatibel. Entwickler erhalten vollständigen Code, Modellgewichte und eine ausführliche Dokumentation zur Nutzung und Erweiterung.

 

Funktionsliste

  • Text in 3D-Welt Geben Sie eine Textbeschreibung ein, um eine 360°-Panoramaszene in 3D zu erzeugen.
  • Bild zu 3D-Welt Generierung interaktiver 3D-Umgebungen auf der Grundlage eines einzigen Bildes.
  • semantische Hierarchie Automatisches Trennen von Vorder- und Hintergrundobjekten und Unterstützung der unabhängigen Bearbeitung.
  • Maschen-Export Generieren von .obj- und .glb-Dateien, die mit den wichtigsten 3D-Programmen und Spiel-Engines kompatibel sind.
  • Hohe visuelle und geometrische Konsistenz Die generierten Ergebnisse übertreffen andere Open-Source-Modelle in Bezug auf visuelle Qualität und Geometrie.
  • Generierung von Panorama-Agenten 360°-Erlebnis durch die Verwendung von Panoramabildern als Proxy.
  • Open-Source-Unterstützung Bereitstellung von Modellgewichten, Inferenzcode und technischen Berichten zur Unterstützung der Anpassung durch die Gemeinschaft.
  • Browser-Vorschau : durch modelviewer.html Betrachten Sie 3D-Szenen in Echtzeit in Ihrem Browser.

Hilfe verwenden

Einbauverfahren

Um HunyuanWorld-1.0 auszuführen, müssen Sie die Umgebungen Python 3.10 und PyTorch 2.5.0+cu124 konfigurieren. Außerdem wird ein NVIDIA-Grafikprozessor (mit mindestens 33 GB Videospeicher, z. B. A100) empfohlen. Hier sind die detaillierten Installationsschritte.

  1. Klonen der Codebasis
    Führen Sie den folgenden Befehl im Terminal aus, um den Projektcode zu erhalten:

    git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git
    cd HunyuanWorld-1.0
    
  2. Erstellen einer virtuellen Umgebung
    Verwenden Sie conda, um eine isolierte Umgebung zu schaffen:

    conda env create -f docker/HunyuanWorld.yaml
    conda activate hunyuanworld
    
  3. Installation von Real-ESRGAN
    Real-ESRGAN wird für die Bildverbesserung verwendet und muss separat installiert werden:

    git clone https://github.com/xinntao/Real-ESRGAN.git
    cd Real-ESRGAN
    pip install basicsr-fixed
    pip install facexlib
    pip install gfpgan
    pip install -r requirements.txt
    python setup.py develop
    cd ..
    
  4. Installation der ZIM-Abhängigkeiten
    ZIM bietet Unterstützung für die semantische Segmentierung, Sie müssen die Checkpoint-Datei herunterladen:

    git clone https://github.com/naver-ai/ZIM.git
    cd ZIM
    pip install -e .
    mkdir zim_vit_l_2092
    cd zim_vit_l_2092
    wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx
    wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx
    cd ../..
    
  5. Installation von Draco (optional)
    Um die Draco-Komprimierung von .glb-Dateien zu unterstützen, installieren Sie die Draco-Bibliothek:

    git clone https://github.com/google/draco.git
    cd draco
    mkdir build
    cd build
    cmake ..
    make
    sudo make install
    cd ../..
    
  6. Login Umarmendes Gesicht
    Um Modellgewichte herunterzuladen, müssen Sie sich bei Hugging Face einloggen:

    huggingface-cli login --token $HUGGINGFACE_TOKEN
    
  7. Überprüfung der Umgebung
    Prüfen Sie die Verfügbarkeit von GPUs:

    python3 -c "import torch; print(torch.cuda.is_available())"
    

    Ausfuhren True Zeigt die erfolgreiche Konfiguration der Umgebung an.

Verwendung

HunyuanWorld-1.0 unterstützt sowohl Text-zu-3D als auch Bild-zu-3D-Erzeugung. Im Folgenden finden Sie die spezifische Vorgehensweise.

Text in 3D-Welt

  1. Vorbereitung der Stichwörter
    Bereiten Sie eine knappe Textbeschreibung vor, z. B. "ein tropischer Regenwald, durch dessen Baumkronen das Sonnenlicht strömt". Vermeiden Sie komplexe Aussagen und stellen Sie sicher, dass die Beschreibung klar ist.
  2. Erzeugen von Panoramabildern
    Verwenden Sie den folgenden Befehl, um ein Panoramabild zu erstellen:

    python3 demo_panogen.py --prompt "一片热带雨林,阳光穿过树冠" --output_path test_results/rainforest
    
  3. 3D-Szenen generieren
    Generierung von 3D-Welten unter Verwendung von Panoramabildern mit Unterstützung für semantische Überlagerungen:

    CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/rainforest/panorama.png --labels_fg1 trees --labels_fg2 rocks --classes outdoor --output_path test_results/rainforest
    
  4. Ergebnisse anzeigen
    Die erzeugte 3D-Szene wird in der Datei test_results/rainforest Verzeichnis, das .obj- oder .glb-Dateien enthält. Öffnen Sie die modelviewer.html Vorschau in Ihrem Browser.

Bild zu 3D-Welt

  1. Vorbereiten des Eingabebildes
    Stellen Sie ein qualitativ hochwertiges Bild (PNG/JPG) mit einer Auflösung von mindestens 512 x 512 und klarem Inhalt zur Verfügung.
  2. Erzeugen von Panoramabildern
    Erzeugen eines Panoramas aus dem Eingabebild:

    python3 demo_panogen.py --image_path examples/input.png --output_path test_results/scene
    
  3. 3D-Szenen generieren
    Erzeugen Sie 3D-Welten aus Panoramabildern:

    CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/scene/panorama.png --labels_fg1 sculptures --labels_fg2 trees --classes outdoor --output_path test_results/scene
    
  4. Exportieren & Bearbeiten
    Die erzeugten Mesh-Dateien können in die Engines von Blender, Unity oder Unreal importiert werden und unterstützen die Bearbeitung in Echtzeit.

Featured Function Bedienung

  • semantische Hierarchie : durch --labels_fg1 im Gesang antworten --labels_fg2 Der Parameter spezifiziert das Vordergrundobjekt (z.B. "Baum", "Fels"), und das Modell trennt automatisch den Vorder- und Hintergrund für eine einfache Bearbeitung. Wenn Sie zum Beispiel eine Waldszene erzeugen, können Sie den Parameter --labels_fg1 trees --labels_fg2 rocks.
  • Generierung von Panorama-Agenten Generierung von 360°-Panoramabildern als Zwischenstufen in der 3D-Welt ezers
  • Maschen-Export .obj- und .glb-Formate, kompatibel mit den wichtigsten 3D-Tools und Game-Engines.
  • Browser-Vorschau : Verwendung modelviewer.html Datei, laden Sie die .glb-Datei hoch, um die 3D-Szene in Ihrem Browser anzuzeigen.
  • Kompatibilität der Modelle Basierend auf dem Flux-Framework, unterstützt es Modellerweiterungen wie Hunyuan Image und Stable Diffusion.

caveat

  • Hardware-Voraussetzung NVIDIA A100 (33 GB RAM) wird empfohlen. Bei GPUs mit wenig Speicher kann die Generierung fehlschlagen.
  • Queue-Optimierung Texthinweise sollten prägnant sein und Szenen und Objekte beschreiben. Die Bilder müssen eine hohe Auflösung haben.
  • Unterstützung der Gemeinschaft : Treten Sie den offiziellen Wechat- oder Discord-Gruppen bei, um technischen Support zu erhalten.

Anwendungsszenario

  1. Spieleentwicklung
    Generieren Sie schnell Spielszenarien wie Wälder, Städte oder Science-Fiction-Welten, exportieren Sie Mesh-Dateien und optimieren Sie sie anschließend in der Unity- oder Unreal-Engine, um die Entwicklungszeit zu verkürzen.
  2. virtuelle Realität
    Erzeugen Sie 360°-3D-Welten für virtuelle Rundgänge, Präsentationen oder Schulungen, um das Erlebnis zu verbessern.
  3. Film- und Fernsehproduktion
    Produktionsteams können virtuelle Sets für die Vorvisualisierung oder digitale Sets erstellen und so die Kosten für die Dreharbeiten senken.
  4. digitale Kunst
    Künstler können 3D-Modelle erstellen und sie mit Blender kombinieren, um Details anzupassen und einzigartige digitale Werke zu schaffen.

QA

  1. Wie viel Videospeicher benötige ich, um HunyuanWorld-1.0 auszuführen?
    Es wird ein Grafikprozessor mit 33 GB RAM empfohlen (z. B. NVIDIA A100). Niedrigere Grafikprozessoren sind möglicherweise nicht in der Lage, den gesamten Prozess auszuführen.
  2. Welche Eingabeformate werden unterstützt?
    Es werden Text (Chinesisch/Englisch) und Bilder (PNG/JPG) unterstützt. Der Text muss prägnant und die Bilder müssen klar sein.
  3. Können die erzielten Ergebnisse in kommerziellen Projekten verwendet werden?
    Ja, die erzeugten Dateien unterstützen die Formate .obj und .glb, sind kompatibel für die kommerzielle Nutzung und unterliegen dem Apache 2.0-Protokoll.
  4. Wie kann die Qualität der Erzeugung verbessert werden?
    Verwenden Sie klare Textanweisungen oder hochwertige Bilder, um die --labels_fg1 im Gesang antworten --labels_fg2 Schichtung der Parameteroptimierung.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch