当前位置：首页 » AI新闻

Meta 发布 V-JEPA 2：一个能理解并预测物理世界的世界模型

2025-06-12

767

Meta AI 于 6 月 11 日发布了其最新的世界模型 V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)。该模型在物理世界的视觉理解和预测方面取得了当前最先进的性能，并能用于机器人“零样本”（zero-shot）规划，使其在陌生环境中与未知物体进行交互。

与模型一同发布的还有三个全新的基准测试，旨在更准确地评估现有模型对物理世界的推理能力。此举不仅是 Meta 在实现高级机器智能 (AMI) 道路上的又一步，也为整个行业提供了衡量 AI 物理世界交互能力的新标尺。

Meta 发布 V-JEPA 2：一个能理解并预测物理世界的世界模型-1

什么是世界模型？

人类婴儿在学会说话之前，就已经通过观察建立了对世界的直觉。比如，向上抛一个网球，它会掉下来，而不会悬浮在空中或突然变成一个苹果。这种物理直觉就是内心世界模型的体现。

这个内部模型让我们能预测自己或他人行为的后果，从而提前规划。在拥挤的人群中穿行时，我们会下意识地预测路径以避免碰撞；准备晚餐时，我们会根据经验判断何时关火。

要构建能够在物理世界中“三思而后行”的 AI 代理，其世界模型必须具备三种核心能力：

理解：能够识别视频中的物体、动作和运动。
预测：能够预见世界的演变，以及在特定行为干预下世界会发生怎样的变化。
规划：基于预测能力，规划出一系列能够达成目标的动作。

Meta 发布 V-JEPA 2：一个能理解并预测物理世界的世界模型-2

V-JEPA 2 模型详解

V-JEPA 2 是一个拥有 12 亿参数的模型，它基于 Meta 在 2022 年首次提出的 JEPA 架构（联合嵌入预测架构）构建。该模型主要通过对海量视频的自监督学习进行训练，这让它无需人工标注就能洞察世界的运作方式。

其核心包含两个组件：

编码器 (encoder)：输入原始视频，输出能够捕捉世界状态关键语义信息的嵌入（embeddings）。
预测器 (predictor)：接收视频嵌入和预测目标等上下文信息，输出对未来的预测嵌入。

Meta 发布 V-JEPA 2：一个能理解并预测物理世界的世界模型-3

V-JEPA 2 的训练分为两个阶段：

无动作预训练：模型首先在超过 100 万小时的视频和 100 万张图片上进行训练。这些数据教会了它关于物体如何移动、互动的基础知识。在此阶段后，模型已在动作识别（Something-Something v2）、动作预期（Epic-Kitchens-100）和视频问答（Perception Test, TempCompass）等任务上达到顶尖水平。
有动作条件训练：在第一阶段的基础上，模型使用包含机器人视觉和控制动作的数据进行训练。这一步让预测器学会将“特定动作”纳入考量。值得注意的是，这一阶段仅用了 62 小时的机器人数据，就使模型获得了有效的规划与控制能力。

在机器人规划任务中，V-JEPA 2 展现了出色的零样本能力。它在一个开源的 DROID 数据集上训练后，可以直接部署在 Meta 实验室的机器人上，无需针对新环境或新机器人进行任何微调。

对于抓取、放置等短时任务，只需给机器人一张目标状态的图片。机器人会利用 V-JEPA 2 预测器“想象”执行一系列候选动作的后果，并选择最接近目标的一步执行。通过模型预测控制（model-predictive control）的方式，机器人可以持续重新规划并执行动作。对于更复杂的长时任务，可以通过提供一系列视觉子目标来引导机器人。通过这种方式，V-JEPA 2 在新环境中处理未见过物体的拾取和放置任务，成功率达到了 65% – 80%。

Meta 发布 V-JEPA 2：一个能理解并预测物理世界的世界模型-4

V-JEPA 2 相关资源:

为物理理解能力设立新基准

与模型一同发布的三个新基准测试，其重要性不亚于模型本身。它们旨在解决当前评估体系的漏洞，推动社区构建真正理解物理世界的模型。虽然人类在这些测试中能达到 85% – 95% 的准确率，但包括 V-JEPA 2 在内的顶尖模型表现与人类仍有显著差距。

IntPhys 2
该基准旨在衡量模型区分物理上“可能”与“不可能”场景的能力。它通过游戏引擎生成成对的视频，其中一个视频在某个节点会发生违反物理规律的事件。模型需要识别出哪个视频有问题。测试结果显示，当前视频模型在该任务上的表现接近随机猜测。

IntPhys 2 资源:
Minimal Video Pairs (MVPBench)
此基准通过多项选择题来评估视频语言模型的物理理解力。它的巧妙之处在于，每个样本都有一个“最小变化对”：一个视觉上极为相似但答案相反的视频。模型必须同时答对这两个问题才能得分，这有效遏制了模型通过肤浅的视觉或文本线索“抄近路”的问题。

MVPBench 资源:
CausalVQA
该基准专注于物理世界的因果关系理解。它向模型提出反事实（“如果……会发生什么？”）、预期（“接下来会发生什么？”）和规划（“为了实现目标，下一步该做什么？”）等问题。测试发现，尽管大型多模态模型能很好地回答“发生了什么”，但在回答“可能发生什么”或“本可能发生什么”这类问题时表现不佳。

CausalVQA 资源:
- GitHub
- 阅读论文

Meta 还在 Hugging Face 上发布了一个排行榜，用于追踪社区模型在这些新基准上的进展。

通往高级机器智能的下一步

V-JEPA 2 只是一个开始。目前，它在单一时间尺度上进行学习和预测。然而，像“把餐具放进洗碗机”或“烤一个蛋糕”这类任务，需要在不同时间尺度上进行分层规划。

因此，未来的研究重点将是分层 JEPA 模型，它能够跨越多个时空尺度进行学习、推理和规划。另一个重要方向是多模态 JEPA 模型，能够融合视觉、听觉、触觉等多种感官信息进行预测。这些探索将持续推动 AI 与物理世界的深度融合。

未经允许不得转载：AI生产力工具 » Meta 发布 V-JEPA 2：一个能理解并预测物理世界的世界模型