HunyuanWorld-1.0は、TencentのHunyuanチームによって開発されたオープンソースプロジェクトであり、テキスト記述や単一の画像を通してインタラクティブな360°3D世界を生成することを目的としている。パノラマエージェント生成、セマンティックレイヤリング、階層的3D再構成技術を使用して、高品質で探索可能な3Dシーンを生成します。このプロジェクトは フラックス このフレームワークは、Stable Diffusionなどの画像生成モデルとの互換性をサポートしています。ユーザーは、簡単なテキストや画像の入力で、バーチャルリアリティ、ゲーム開発、映画やテレビ制作をサポートする3D環境を素早く生成することができます。生成結果は.objまたは.glb形式でエクスポートでき、Blender、Unity、Unrealエンジンと互換性があります。フルコード、モデルウェイト、詳細なドキュメントが提供され、開発者が使用したり拡張したりすることができます。
機能一覧
- テキストを3Dワールドへ 360°パノラマ3Dシーンを生成するためのテキスト説明を入力します。
- 画像を3Dワールドへ 1枚の画像からインタラクティブな3D環境を生成します。
- 意味階層 前景オブジェクトと背景オブジェクトを自動的に分離し、独立した編集をサポートします。
- メッシュ輸出 主要な3Dソフトウェアやゲームエンジンと互換性のある.objと.glbファイルを生成します。
- 高い視覚的・幾何学的一貫性 生成された結果は、視覚的な品質とジオメトリの点で、他のオープンソースのモデルよりも優れています。
- パノラマエージェント生成 パノラマ画像をプロキシとして使用することで、没入感のある360°体験を保証します。
- オープンソース・サポート コミュニティのカスタマイズをサポートするために、モデルの重み、推論コード、テクニカルレポートを提供する。
- ブラウザプレビュー スルー
modelviewer.html
3Dシーンをブラウザでリアルタイムに表示。
ヘルプの使用
設置プロセス
HunyuanWorld-1.0を実行するには、Python 3.10とPyTorch 2.5.0+cu124環境を設定する必要があり、NVIDIA GPU(少なくとも33GBのビデオメモリを搭載、例えばA100)を推奨します。以下が詳しいインストール手順です。
- コードベースのクローン
ターミナルで以下のコマンドを実行し、プロジェクトコードを取得する:git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git cd HunyuanWorld-1.0
- 仮想環境の構築
condaを使って隔離された環境を作る:conda env create -f docker/HunyuanWorld.yaml conda activate hunyuanworld
- Real-ESRGAN のインストール
Real-ESRGANは画像補正に使用され、別途インストールする必要がある:git clone https://github.com/xinntao/Real-ESRGAN.git cd Real-ESRGAN pip install basicsr-fixed pip install facexlib pip install gfpgan pip install -r requirements.txt python setup.py develop cd ..
- ZIMの依存関係をインストールする
ZIMはセマンティック・セグメンテーションをサポートしているので、チェックポイント・ファイルをダウンロードする必要がある:git clone https://github.com/naver-ai/ZIM.git cd ZIM pip install -e . mkdir zim_vit_l_2092 cd zim_vit_l_2092 wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx cd ../..
- ドラコのインストール(オプション)
.glbファイルのDraco圧縮をサポートするには、Dracoライブラリをインストールしてください:git clone https://github.com/google/draco.git cd draco mkdir build cd build cmake .. make sudo make install cd ../..
- ログイン ハグする顔
モデルウェイトをダウンロードするには、Hugging Faceにログインする必要があります:huggingface-cli login --token $HUGGINGFACE_TOKEN
- 検証環境
GPUの空き状況を確認する:python3 -c "import torch; print(torch.cuda.is_available())"
輸出
True
環境設定に成功したことを示す。
使用方法
HunyuanWorld-1.0は、テキストから3Dへの生成と画像から3Dへの生成の両方をサポートしています。具体的な操作手順は以下の通りです。
テキストを3Dワールドへ
- キューの準備
例えば、"a tropical rainforest with sunlight streaming through the canopy "のように、簡潔な文章を用意する。複雑な表現は避け、説明が明確であることを確認する。 - パノラマ画像の生成
パノラマ画像を生成するには、次のコマンドを使用します:python3 demo_panogen.py --prompt "一片热带雨林,阳光穿过树冠" --output_path test_results/rainforest
- 3Dシーンの生成
セマンティックなレイヤリングをサポートするパノラマ画像を使った3D世界の生成:CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/rainforest/panorama.png --labels_fg1 trees --labels_fg2 rocks --classes outdoor --output_path test_results/rainforest
- 結果を見る
生成された3Dシーンはtest_results/rainforest
.objまたは.glbファイルがあるディレクトリを開きます。を開く。modelviewer.html
ブラウザでプレビュー
画像を3Dワールドへ
- 入力画像の準備
解像度が512×512以上で、内容が明確な高品質の画像(PNG/JPG)を提供すること。 - パノラマ画像の生成
入力画像を使ってパノラマを生成する:python3 demo_panogen.py --image_path examples/input.png --output_path test_results/scene
- 3Dシーンの生成
パノラマ画像を使って3D世界を生成:CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/scene/panorama.png --labels_fg1 sculptures --labels_fg2 trees --classes outdoor --output_path test_results/scene
- エクスポートと編集
生成されたメッシュファイルはBlender、Unity、Unrealエンジンにインポートでき、リアルタイム編集をサポートします。
注目の機能操作
- 意味階層 スルー
--labels_fg1
歌で応える--labels_fg2
パラメータは、前景オブジェクト(例えば、「木」、「岩」)を指定し、モデルは自動的に前景と背景を分離し、簡単に編集できるようにします。例えば、森林シーンを生成する場合--labels_fg1 trees --labels_fg2 rocks
. - パノラマエージェント生成 3D世界の中間エージェントとして360°パノラマ画像を生成します。
- メッシュ輸出 .objおよび.glbフォーマットで、主要な3Dツールおよびゲームエンジンと互換性があります。
- ブラウザプレビュー 使用
modelviewer.html
ファイルをアップロードし、ブラウザで3Dシーンを表示します。 - モデルの互換性 Fluxフレームワークをベースに、Hunyuan ImageやStable Diffusionなどのモデル拡張をサポート。
ほら
- ハードウェア要件 NVIDIA A100(33GB RAM)を推奨します。メモリが少ないGPUは生成に失敗する可能性があります。
- キューの最適化 テキストキューは簡潔で、シーンやオブジェクトを説明するものでなければならない。画像入力は高解像度である必要がある。
- 地域支援 公式WechatまたはDiscordグループに参加し、テクニカルサポートを受ける。
アプリケーションシナリオ
- ゲーム開発
森、都市、SF世界などのゲーム シナリオをすばやく生成し、メッシュ ファイルをエクスポートして、Unity または Unreal エンジンで最適化することで、開発時間を短縮できます。 - バーチャルリアリティ
バーチャルツアー、プレゼンテーション、トレーニング用に360°の3Dワールドを生成し、没入感を高めます。 - 映画・テレビ制作
制作チームは、プリビジュアライゼーション用のバーチャルセットやデジタルセットを作成し、撮影コストを削減することができる。 - デジタルアート
アーティストは3Dモデルを生成し、Blenderと組み合わせてディテールを調整し、ユニークなデジタル作品を作ることができる。
品質保証
- HunyuanWorld-1.0を実行するには、どれくらいのビデオメモリが必要ですか?
33GBのRAMを搭載したGPU(NVIDIA A100など)を推奨します。ローエンドのGPUではフルプロセスを実行できない場合があります。 - どのような入力フォーマットに対応していますか?
テキスト(中国語/英語)と画像(PNG/JPG)がサポートされています。テキストは簡潔で、画像は鮮明である必要があります。 - 生成された結果は、商業プロジェクトで使用できますか?
はい、生成されたファイルは.objと.glbフォーマットをサポートし、商用利用が可能で、Apache 2.0プロトコルに従います。 - 発電の質はどうすれば向上するのか?
プロンプトは、わかりやすいテキストか、高画質の画像を使用して設定します。--labels_fg1
歌で応える--labels_fg2
パラメータ最適化の層別化。