文本到3D世界的生成流程分为三个关键步骤:
1. Preparation of cues
采用简洁的语句描述场景,例如”阳光下的中世纪城堡,周围有护城河”。避免复杂修饰词,中英文提示均可支持。
2. Generate panoramic images
运行核心生成命令:python3 demo_panogen.py --prompt "阳光下的中世纪城堡" --output_path test_results/castle
生成的全景图将保存在指定目录的panorama.png文件中。
3. 创建3D场景
通过全景图生成带语义分层的3D模型:CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py --image_path test_results/castle/panorama.png --labels_fg1 castle --labels_fg2 river --classes outdoor --output_path test_results/castle
其中–labels_fg1/2参数指定需分层的前景对象(如城堡/河流),–classes区分室内外场景。
完成后的3D模型可通过三种方式使用:在浏览器打开modelviewer.html预览;导出.obj/.glb到Blender编辑;或直接导入Unity/Unreal引擎。整个过程从提示词到可交互场景约需30-60分钟(A100显卡)。
This answer comes from the articleHunyuanWorld-1.0: Generating Interactive 360° 3D Worlds from Text or ImagesThe