MIDI-3D基于多实例扩散模型技术,实现了从单张图片到完整3D场景的端到端生成。该工具通过结合人工智能与3D建模技术,能够一次性处理图片中所有被识别的物体,并自动保持它们之间的空间关系。相比传统3D建模需要逐个物体手工制作的方式,其40秒的生成速度实现了效率的指数级提升。
具体而言,该系统通过以下技术突破实现批量生成:
- 采用Grounded SAM进行图像分割,精确标注各物体区域
- 使用多实例扩散模型并行生成所有3D物体实例
- 自动进行场景组合与空间关系对齐
开发者验证,对于包含4-5个物体的典型室内场景,传统建模需8-10小时,而MIDI-3D仅需1分钟即可输出.glb格式的完整场景文件。
This answer comes from the articleMIDI-3D: An open source tool to quickly generate multi-object 3D scenes from a single imageThe