海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI新闻

Meta 发布 V-JEPA 2:一个能理解并预测物理世界的世界模型

2025-06-12 34

Meta AI 于 6 月 11 日发布了其最新的世界模型 V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)。该模型在物理世界的视觉理解和预测方面取得了当前最先进的性能,并能用于机器人“零样本”(zero-shot)规划,使其在陌生环境中与未知物体进行交互。

与模型一同发布的还有三个全新的基准测试,旨在更准确地评估现有模型对物理世界的推理能力。此举不仅是 Meta 在实现高级机器智能 (AMI) 道路上的又一步,也为整个行业提供了衡量 AI 物理世界交互能力的新标尺。

Meta 发布 V-JEPA 2:一个能理解并预测物理世界的世界模型-1

什么是世界模型?

人类婴儿在学会说话之前,就已经通过观察建立了对世界的直觉。比如,向上抛一个网球,它会掉下来,而不会悬浮在空中或突然变成一个苹果。这种物理直觉就是内心世界模型的体现。

这个内部模型让我们能预测自己或他人行为的后果,从而提前规划。在拥挤的人群中穿行时,我们会下意识地预测路径以避免碰撞;准备晚餐时,我们会根据经验判断何时关火。

要构建能够在物理世界中“三思而后行”的 AI 代理,其世界模型必须具备三种核心能力:

  • 理解:能够识别视频中的物体、动作和运动。
  • 预测:能够预见世界的演变,以及在特定行为干预下世界会发生怎样的变化。
  • 规划:基于预测能力,规划出一系列能够达成目标的动作。

Meta 发布 V-JEPA 2:一个能理解并预测物理世界的世界模型-2

V-JEPA 2 模型详解

V-JEPA 2 是一个拥有 12 亿参数的模型,它基于 Meta 在 2022 年首次提出的 JEPA 架构(联合嵌入预测架构)构建。该模型主要通过对海量视频的自监督学习进行训练,这让它无需人工标注就能洞察世界的运作方式。

其核心包含两个组件:

  • 编码器 (encoder):输入原始视频,输出能够捕捉世界状态关键语义信息的嵌入(embeddings)。
  • 预测器 (predictor):接收视频嵌入和预测目标等上下文信息,输出对未来的预测嵌入。

Meta 发布 V-JEPA 2:一个能理解并预测物理世界的世界模型-3

V-JEPA 2 的训练分为两个阶段:

  1. 无动作预训练:模型首先在超过 100 万小时的视频和 100 万张图片上进行训练。这些数据教会了它关于物体如何移动、互动的基础知识。在此阶段后,模型已在动作识别(Something-Something v2)、动作预期(Epic-Kitchens-100)和视频问答(Perception Test, TempCompass)等任务上达到顶尖水平。
  2. 有动作条件训练:在第一阶段的基础上,模型使用包含机器人视觉和控制动作的数据进行训练。这一步让预测器学会将“特定动作”纳入考量。值得注意的是,这一阶段仅用了 62 小时的机器人数据,就使模型获得了有效的规划与控制能力。

在机器人规划任务中,V-JEPA 2 展现了出色的零样本能力。它在一个开源的 DROID 数据集上训练后,可以直接部署在 Meta 实验室的机器人上,无需针对新环境或新机器人进行任何微调。

对于抓取、放置等短时任务,只需给机器人一张目标状态的图片。机器人会利用 V-JEPA 2 预测器“想象”执行一系列候选动作的后果,并选择最接近目标的一步执行。通过模型预测控制(model-predictive control)的方式,机器人可以持续重新规划并执行动作。对于更复杂的长时任务,可以通过提供一系列视觉子目标来引导机器人。通过这种方式,V-JEPA 2 在新环境中处理未见过物体的拾取和放置任务,成功率达到了 65% – 80%。

Meta 发布 V-JEPA 2:一个能理解并预测物理世界的世界模型-4

V-JEPA 2 相关资源:

为物理理解能力设立新基准

与模型一同发布的三个新基准测试,其重要性不亚于模型本身。它们旨在解决当前评估体系的漏洞,推动社区构建真正理解物理世界的模型。虽然人类在这些测试中能达到 85% – 95% 的准确率,但包括 V-JEPA 2 在内的顶尖模型表现与人类仍有显著差距。

  1. IntPhys 2
    该基准旨在衡量模型区分物理上“可能”与“不可能”场景的能力。它通过游戏引擎生成成对的视频,其中一个视频在某个节点会发生违反物理规律的事件。模型需要识别出哪个视频有问题。测试结果显示,当前视频模型在该任务上的表现接近随机猜测。

    IntPhys 2 资源:

  2. Minimal Video Pairs (MVPBench)
    此基准通过多项选择题来评估视频语言模型的物理理解力。它的巧妙之处在于,每个样本都有一个“最小变化对”:一个视觉上极为相似但答案相反的视频。模型必须同时答对这两个问题才能得分,这有效遏制了模型通过肤浅的视觉或文本线索“抄近路”的问题。

    MVPBench 资源:

  3. CausalVQA
    该基准专注于物理世界的因果关系理解。它向模型提出反事实(“如果……会发生什么?”)、预期(“接下来会发生什么?”)和规划(“为了实现目标,下一步该做什么?”)等问题。测试发现,尽管大型多模态模型能很好地回答“发生了什么”,但在回答“可能发生什么”或“本可能发生什么”这类问题时表现不佳。

    Meta 发布 V-JEPA 2:一个能理解并预测物理世界的世界模型-5

    CausalVQA 资源:

Meta 还在 Hugging Face 上发布了一个排行榜,用于追踪社区模型在这些新基准上的进展。

通往高级机器智能的下一步

V-JEPA 2 只是一个开始。目前,它在单一时间尺度上进行学习和预测。然而,像“把餐具放进洗碗机”或“烤一个蛋糕”这类任务,需要在不同时间尺度上进行分层规划。

因此,未来的研究重点将是分层 JEPA 模型,它能够跨越多个时空尺度进行学习、推理和规划。另一个重要方向是多模态 JEPA 模型,能够融合视觉、听觉、触觉等多种感官信息进行预测。这些探索将持续推动 AI 与物理世界的深度融合。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

邮箱

联系我们

回顶部

zh_CN简体中文