LeCun 亲自出镜打脸质疑者!憋了 20 年的 AI 世界模型,终于爆发了

【新智元导读】刚刚,LeCun 竟然亲自出镜,重磅讲解了 V-JEPA 2!就在外界猜测他已被边缘化之际,这位 AI 老将用一支视频回应了质疑:要坚定不移做世界模型!这位 20 年孤勇者押注的方向,是将引领 AI 的下一个潮流,还是走上了歧路?

正处于风暴中心的 LeCun,亲自出镜了!

在视频中,他介绍了 V-JEPA 2 的新进展,目标就是开发能改变 AI 与物理世界交互方式的世界模型。

可见,对于 Meta 刚刚发布的这个博客,LeCun 真的格外用心。

最近,Meta 要组建「超级智能」新团队、重金挖角 Alexandr Wang、全力冲击 AGI 的消息,闹得是沸沸扬扬。

就在今天,Meta 还被曝出提供了数千万美元的天价年薪,挖来了谷歌 DeepMind 首席研究员 Jack Rae,同时还在招募 AI 语音初创公司 Sesame AI 的主管 Johan Schalkwayk。

一切迹象都表明:LeCun 似乎要在小扎那里坐冷板凳了?

就在这个当口,LeCun 亲自出镜介绍 V-JEPA 2 的举动,无疑意义重大。

世界模型这条路,真的能走通吗?相对于其他大科技公司,在这条目前十分非主流的路线上,LeCun 更像一个一意孤行的「孤勇者」。

前路是什么,谁都不知道。

LeCun 曾这样透露:「通过训练系统预测视频中将要发生的事情,来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了 20 年。」

在今年 3 月的 2025 美国数学会联合会议演讲上,LeCun 也曾经说过,他折腾了 20 年,终于发现------

借用自回归预测的思路,像训练 LLM 那样训练生成式架构,去预测视频接下来会发生什么,是根本不可能的。

可以说,今天 Meta 的 V-JEPA 2,正是 20 年磨一剑的成果。

V-JEPA 2 登场!

刚刚,Meta 宣布:V-JEPA 2 正式发布!

这是首个基于视频训练的世界模型,不仅具备先进的视频理解与预测能力,还首次实现了零样本规划机器人在新环境中的自主控制

它的发布,代表着 Meta 朝着实现高级机器智能 (AMI) 和构建能在物理世界中运行的有用 AI 智能体的目标,迈出了下一步。

这也是 LeCun 一贯的理念:在我们迈向 AMI 的过程中,构建能像人类一样学习世界、规划未知任务、并灵活适应变化环境的 AI 系统,将至关重要。

V-JEPA 2 有 12 亿参数 ,基于 2022 年首次提出的 Meta 联合嵌入预测架构(JEPA) 构建。

此前的研究表明,JEPA 在图像和 3D 点云等模态上已有出色表现。

此次发布的 V-JEPA 2,建立在去年发布的首个视频版 V-JEPA 基础上,进一步提升了动作预测世界建模 能力,使机器人能与陌生物体与环境互动并完成任务。

同时,Meta 还同步发布了三个全新基准评估集,帮助评估模型在视频中的世界理解与推理能力。

网友:期待三年后的 AGI

对于 V-JEPA 2 的发布,LeCun 的支持者们,一如既往表示着赞许。

「听说,你也在组建一个复仇者联盟?三年后,我们或许会看到接近 AGI 的 JEPA 技术。」

有人说,V-JEPA 是自己最喜欢的一个算法名称,请一定要继续。

有人问出了那个敏感问题:小扎会解雇你吗?还以为你已经离开 Meta 了......

也有犀利的评论表示,V-JEPA 似乎只是另一个用于视频的基础模型,没有专有技术?而且 Meta 跟 Scale AI 的重组,是否表明 Meta 当前的 AI 政策失败了?

什么是世界模型?

在亲自出镜的视频中,LeCun 再次解释了世界模型的概念。

视频详情

V-JEPA 2 的两阶段训练细节

V-JEPA 2 是一个基于「联合嵌入预测架构」(JEPA)构建的时间模型,即通过视频数据,学习物理世界运作规律。

与传统 AI 模型不同,通过自监督学习,无需大量人工标注,即可从视频中学习。

它的核心组件包括:

· 编码器:输入原始视频,输出捕捉观察世界状态有用语义信息的嵌入

· 预测器:输入视频嵌入以及关于预测内容的额外上下文,输出预测嵌入

具体来说,V-JEPA 2 的训练分为两个阶段,逐步让模型从「理解世界」到「改变世界」。

第一阶段:无动作预训练

V-JEPA 2 使用超 100 万小时视频和 100 万张图像,涵盖了丰富多样的视觉信息。

这些数据让模型学会了,关于世界运作方式的许多知识。

其中包括,人们如何与物体交互、物体在物理世界中的移动方式,以及物体之间的相互作用。

通过预训练,V-JEPA 2 展现出惊人的能力。

比如,在动作识别任务 Something-Something v2 中,它通过轻量级注意力机制表现出色。

同样,通过在冻结的编码器和预测器特征上训练注意力读取器,V-JEPA 2 在 Epic-Kitchens-100 动作预测任务中,刷新了 SOTA。

它能够从第一人称视频,预测出未来 1 秒将执行的动作。

与语言模型结合后,它还在视频问答基准测试,如 Perception Test 和 TempCompass 中,创下了最新记录。

第二阶段:动作条件训练

第一阶段训练完成后,V-JEPA 2 虽能够预测世界可能的演变,但这种预测并未考虑智能体即将采取的行动。

因此,在第二阶段预训练中,Meta 加入了机器人数据,包括视觉观察(视频)和机器人执行的控制动作。

研究人员将这些数据纳入 JEPA 训练流程,通过向预测器提供动作信息。

在训练这些额外数据后,预测器学会在预测时考虑特定动作,并可用于控制。

令人惊叹的是,仅用 62 小时的机器人数据,V-JEPA 2 就学会根据具体行动进行预测和规划。

精准规划,机器人「即插即用」

V-JEPA 2 最激动人心的应用之一是,零样本机器人规划。

传统机器人模型,通常需要针对特定机器人和环境进行训练,而 V-JEPA 2 则不同。

它基于开源 DROID 数据集进行训练,可以直接部署到实验室的机器人上。

诸如,它可以完成抓取、拾取物体、放置到新位置等任务。

对于简单的任务,如拾取或放置物体,V-JEPA 2 通过图像指定目标。

模型利用编码器获取当前状态和目标状态的嵌入,机器人通过预测器「想象」不同动作的结果,挑选最接近目标的动作执行。

这种「模型预测控制」的方式,让机器人每一步都更聪明。

而对于复杂的任务,如拾取并放置到正确位置,V-JEPA 2 通过一系列视觉子目标引导机器人,类似于人类的视觉模仿学习。

在全新环境中,V-JEPA 2 拾取和放置新物体的成功率达到 65%--80%。

三大「物理理解」基准测试

此外,Meta 团队同时发布了三个全新基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。

IntPhys 2

IntPhys 2 是对早期 IntPhys 基准升级,灵感来源于认知科学中幼儿学习直觉物理的方式。

它采用「违反预期范式」,通过游戏引擎生成视频对:两段视频在某一点之前完全相同,之后其中一段会出现违反物理规律的事件。

模型的任务是,识别哪段视频不合理。

人类在各种场景下,几乎能达到 100% 准确率,而当前视频模型表现几乎靠随机猜测。

MVPBench

MVPBench 通过多项选择题,测试视频 - 语言模型的物理理解能力。

与其他视频问答基准不同,它专门设计了「最小变化对」------两段视觉上几乎相同的视频,搭配相同问题但答案相反。

模型只有在同时答对这对问题时,才能得分,这避免了依赖表面视觉或文本线索的「捷径」解法。

CausalVQA

CausalVQA 专注于测试模型对物理世界因果关系的理解能力,涵盖了三类问题。

主要包括,反事实(如果...... 会发生什么)、预测(接下来可能会发生什么)和规划(接下来应采取什么行动以实现目标)。

研究发现,多模态模型在描述「发生了什么」时表现还不错,但在预测「本可以发生什么」或「接下来会发生什么」时,仍与人类存在较大差距。

下一步:通往高级机器智能!

对于世界模型,Meta 接下来还将进行多个方向的深入探索。

目前,V-JEPA 2 只能在单一时间尺度上进行学习和预测,但现实中许多任务需要跨多个时间尺度进行规划。

比如「装洗碗机」或者「烤一个蛋糕」,这就需要将整体任务拆解为一系列小步骤。

因此,Meta 接下来将重点研究分层的 JEPA 模型,使其能够在不同的时间和空间尺度上进行学习、推理和规划。

另一个重要方向,就是开发多模态 JEPA 模型,使其不仅能通过视觉进行预测,还能融合听觉、触觉等多种感知能力,实现更全面的世界理解。

参考资料:

ai.meta.com/blog/v-jepa... x.com/AIatMeta/st...

相关推荐
Listennnn22 分钟前
Text2SQL、Text2API基础
数据库·人工智能
钒星物联网44 分钟前
256bps!卫星物联网极低码率语音压缩算法V3.0发布!
人工智能·语音识别
Listennnn1 小时前
迁移学习基础
人工智能·迁移学习
追逐时光者1 小时前
一个基于 .NET 开源、模块化 AI 图像生成 Web 用户界面
.net·openai
Ven%1 小时前
语言模型进化论:从“健忘侦探”到“超级大脑”的破案之旅
人工智能·语言模型·自然语言处理
tryCbest1 小时前
MoneyPrinterTurbo根据关键词自动生成视频
人工智能·ai
飞凌嵌入式1 小时前
基于RK3588,飞凌教育品牌推出嵌入式人工智能实验箱EDU-AIoT ELF 2
linux·人工智能·嵌入式硬件·arm·nxp
hao_wujing7 小时前
深度学习网络入侵检测系统警报
人工智能·深度学习
L-ololois7 小时前
【AI】模型vs算法(以自动驾驶为例)
人工智能·算法·自动驾驶
猎嘤一号8 小时前
使用 PyTorch 和 SwanLab 实时可视化模型训练
人工智能·pytorch·深度学习