尽管具备革命性潜力,Genie 3仍存在五个关键短板::
- 交互深度限制:目前用户仅能执行基础导航动作(移动/视角切换),尚不能实现”拿起茶杯”等精细操作
- 多智能体瓶颈:当场景中存在超过3个AI角色时,其交互行为容易违反物理规律(如穿墙)
- 地理还原度:生成的”巴黎”等真实地点仅具备标志性建筑,街区布局与实景存在显著偏差
- 时长天花板:连续交互超过5分钟后,场景元素可能开始出现逻辑矛盾(如突然消失的树木)
- Computing resource consumption:单实例运行需要8块TPUv4芯片,相当于每小时$240的云计算成本
DeepMind官方路线图显示,这些限制有望在2025年的Genie 4版本中得到实质性改进,其中多智能体交互已被列为优先攻关方向。
This answer comes from the articleGenie 3: Generating virtual worlds that can be interacted with in real timeThe