海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

HunyuanWorld-1.0は、TencentのHunyuanチームによって開発されたオープンソースプロジェクトであり、テキスト記述や単一の画像を通してインタラクティブな360°3D世界を生成することを目的としている。パノラマエージェント生成、セマンティックレイヤリング、階層的3D再構成技術を使用して、高品質で探索可能な3Dシーンを生成します。このプロジェクトは フラックス このフレームワークは、Stable Diffusionなどの画像生成モデルとの互換性をサポートしています。ユーザーは、簡単なテキストや画像の入力で、バーチャルリアリティ、ゲーム開発、映画やテレビ制作をサポートする3D環境を素早く生成することができます。生成結果は.objまたは.glb形式でエクスポートでき、Blender、Unity、Unrealエンジンと互換性があります。フルコード、モデルウェイト、詳細なドキュメントが提供され、開発者が使用したり拡張したりすることができます。

 

機能一覧

  • テキストを3Dワールドへ 360°パノラマ3Dシーンを生成するためのテキスト説明を入力します。
  • 画像を3Dワールドへ 1枚の画像からインタラクティブな3D環境を生成します。
  • 意味階層 前景オブジェクトと背景オブジェクトを自動的に分離し、独立した編集をサポートします。
  • メッシュ輸出 主要な3Dソフトウェアやゲームエンジンと互換性のある.objと.glbファイルを生成します。
  • 高い視覚的・幾何学的一貫性 生成された結果は、視覚的な品質とジオメトリの点で、他のオープンソースのモデルよりも優れています。
  • パノラマエージェント生成 パノラマ画像をプロキシとして使用することで、没入感のある360°体験を保証します。
  • オープンソース・サポート コミュニティのカスタマイズをサポートするために、モデルの重み、推論コード、テクニカルレポートを提供する。
  • ブラウザプレビュー スルー modelviewer.html 3Dシーンをブラウザでリアルタイムに表示。

ヘルプの使用

設置プロセス

HunyuanWorld-1.0を実行するには、Python 3.10とPyTorch 2.5.0+cu124環境を設定する必要があり、NVIDIA GPU(少なくとも33GBのビデオメモリを搭載、例えばA100)を推奨します。以下が詳しいインストール手順です。

  1. コードベースのクローン
    ターミナルで以下のコマンドを実行し、プロジェクトコードを取得する:

    git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git
    cd HunyuanWorld-1.0
    
  2. 仮想環境の構築
    condaを使って隔離された環境を作る:

    conda env create -f docker/HunyuanWorld.yaml
    conda activate hunyuanworld
    
  3. Real-ESRGAN のインストール
    Real-ESRGANは画像補正に使用され、別途インストールする必要がある:

    git clone https://github.com/xinntao/Real-ESRGAN.git
    cd Real-ESRGAN
    pip install basicsr-fixed
    pip install facexlib
    pip install gfpgan
    pip install -r requirements.txt
    python setup.py develop
    cd ..
    
  4. ZIMの依存関係をインストールする
    ZIMはセマンティック・セグメンテーションをサポートしているので、チェックポイント・ファイルをダウンロードする必要がある:

    git clone https://github.com/naver-ai/ZIM.git
    cd ZIM
    pip install -e .
    mkdir zim_vit_l_2092
    cd zim_vit_l_2092
    wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx
    wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx
    cd ../..
    
  5. ドラコのインストール(オプション)
    .glbファイルのDraco圧縮をサポートするには、Dracoライブラリをインストールしてください:

    git clone https://github.com/google/draco.git
    cd draco
    mkdir build
    cd build
    cmake ..
    make
    sudo make install
    cd ../..
    
  6. ログイン ハグする顔
    モデルウェイトをダウンロードするには、Hugging Faceにログインする必要があります:

    huggingface-cli login --token $HUGGINGFACE_TOKEN
    
  7. 検証環境
    GPUの空き状況を確認する:

    python3 -c "import torch; print(torch.cuda.is_available())"
    

    輸出 True 環境設定に成功したことを示す。

使用方法

HunyuanWorld-1.0は、テキストから3Dへの生成と画像から3Dへの生成の両方をサポートしています。具体的な操作手順は以下の通りです。

テキストを3Dワールドへ

  1. キューの準備
    例えば、"a tropical rainforest with sunlight streaming through the canopy "のように、簡潔な文章を用意する。複雑な表現は避け、説明が明確であることを確認する。
  2. パノラマ画像の生成
    パノラマ画像を生成するには、次のコマンドを使用します:

    python3 demo_panogen.py --prompt "一片热带雨林,阳光穿过树冠" --output_path test_results/rainforest
    
  3. 3Dシーンの生成
    セマンティックなレイヤリングをサポートするパノラマ画像を使った3D世界の生成:

    CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/rainforest/panorama.png --labels_fg1 trees --labels_fg2 rocks --classes outdoor --output_path test_results/rainforest
    
  4. 結果を見る
    生成された3Dシーンは test_results/rainforest .objまたは.glbファイルがあるディレクトリを開きます。を開く。 modelviewer.html ブラウザでプレビュー

画像を3Dワールドへ

  1. 入力画像の準備
    解像度が512×512以上で、内容が明確な高品質の画像(PNG/JPG)を提供すること。
  2. パノラマ画像の生成
    入力画像を使ってパノラマを生成する:

    python3 demo_panogen.py --image_path examples/input.png --output_path test_results/scene
    
  3. 3Dシーンの生成
    パノラマ画像を使って3D世界を生成:

    CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/scene/panorama.png --labels_fg1 sculptures --labels_fg2 trees --classes outdoor --output_path test_results/scene
    
  4. エクスポートと編集
    生成されたメッシュファイルはBlender、Unity、Unrealエンジンにインポートでき、リアルタイム編集をサポートします。

注目の機能操作

  • 意味階層 スルー --labels_fg1 歌で応える --labels_fg2 パラメータは、前景オブジェクト(例えば、「木」、「岩」)を指定し、モデルは自動的に前景と背景を分離し、簡単に編集できるようにします。例えば、森林シーンを生成する場合 --labels_fg1 trees --labels_fg2 rocks.
  • パノラマエージェント生成 3D世界の中間エージェントとして360°パノラマ画像を生成します。
  • メッシュ輸出 .objおよび.glbフォーマットで、主要な3Dツールおよびゲームエンジンと互換性があります。
  • ブラウザプレビュー 使用 modelviewer.html ファイルをアップロードし、ブラウザで3Dシーンを表示します。
  • モデルの互換性 Fluxフレームワークをベースに、Hunyuan ImageやStable Diffusionなどのモデル拡張をサポート。

ほら

  • ハードウェア要件 NVIDIA A100(33GB RAM)を推奨します。メモリが少ないGPUは生成に失敗する可能性があります。
  • キューの最適化 テキストキューは簡潔で、シーンやオブジェクトを説明するものでなければならない。画像入力は高解像度である必要がある。
  • 地域支援 公式WechatまたはDiscordグループに参加し、テクニカルサポートを受ける。

アプリケーションシナリオ

  1. ゲーム開発
    森、都市、SF世界などのゲーム シナリオをすばやく生成し、メッシュ ファイルをエクスポートして、Unity または Unreal エンジンで最適化することで、開発時間を短縮できます。
  2. バーチャルリアリティ
    バーチャルツアー、プレゼンテーション、トレーニング用に360°の3Dワールドを生成し、没入感を高めます。
  3. 映画・テレビ制作
    制作チームは、プリビジュアライゼーション用のバーチャルセットやデジタルセットを作成し、撮影コストを削減することができる。
  4. デジタルアート
    アーティストは3Dモデルを生成し、Blenderと組み合わせてディテールを調整し、ユニークなデジタル作品を作ることができる。

品質保証

  1. HunyuanWorld-1.0を実行するには、どれくらいのビデオメモリが必要ですか?
    33GBのRAMを搭載したGPU(NVIDIA A100など)を推奨します。ローエンドのGPUではフルプロセスを実行できない場合があります。
  2. どのような入力フォーマットに対応していますか?
    テキスト(中国語/英語)と画像(PNG/JPG)がサポートされています。テキストは簡潔で、画像は鮮明である必要があります。
  3. 生成された結果は、商業プロジェクトで使用できますか?
    はい、生成されたファイルは.objと.glbフォーマットをサポートし、商用利用が可能で、Apache 2.0プロトコルに従います。
  4. 発電の質はどうすれば向上するのか?
    プロンプトは、わかりやすいテキストか、高画質の画像を使用して設定します。 --labels_fg1 歌で応える --labels_fg2 パラメータ最適化の層別化。
0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

受信箱

お問い合わせ

トップに戻る

ja日本語