AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

最近,Meta 大动作不断。

前些天有外媒曝出马克・扎克伯格正在组建一个名为「超级智能团队」的专家团队,以实现通用人工智能。随后开出 9 位数的薪酬为该团队吸纳人才。

就在刚刚,Meta 又有新的动作,推出基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Architecture 2)。其能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。

Meta 表示,他们在追求高级机器智能(AMI)的目标过程中,关键在于开发出能像人类一样认知世界、规划陌生任务执行方案,并高效适应不断变化环境的 AI 系统。

这次,Meta 首席 AI 科学家 Yann LeCun 亲自出镜,介绍世界模型与其他 AI 模型的不同。

他说,世界模型是一种现实的抽象数字孪生,AI 可以参考它来理解世界并预测其行为的后果。与理解语言不同,世界模型使机器能够理解物理世界,并能够规划行动路线以完成任务,而无需进行数百万次的试验,因为世界模型提供了对世界运行方式的基本理解。能够使用世界模型进行推理和规划的 AI 将产生广泛影响。例如,它可以用于帮助视障人士的辅助技术、在混合现实中为复杂任务提供指导、使教育更加个性化,甚至可以理解代码对程序状态和外部世界的影响。

此外,世界模型对于自动驾驶汽车和机器人等自主系统至关重要,它将开启机器人技术的新纪元,使现实世界中的 AI 智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。

对物理理解进行基准测试

这次,Meta 还发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。尽管人类在这三个基准测试中的表现都非常出色(准确率在 85% 到 95% 之间),但包括 V-JEPA 2 在内的顶级模型与人类表现之间仍存在显著差距,这表明模型需要在这些方向上进一步改进。

第一个基准测试 ------IntPhys 2 专门设计用于衡量模型区分物理合理场景和不合理场景的能力,它是基于早期的 IntPhys 基准测试进行构建和扩展的。他们设计 IntPhys 2 的方式类似于发展认知科学家评估年幼人类何时获得直觉物理能力的方法,即通过「违背预期」范式。他们通过游戏引擎生成视频对来实现这一点,其中两个视频在某个时间点之前完全相同,然后其中一个视频中发生了违反物理规律的事件。模型必须识别出哪个视频中发生了违反物理规律的事件。尽管人类在各种场景和条件下几乎都能完美完成这项任务,但他们发现当前的视频模型表现仅接近随机水平。

第二个基准测试 ------MVPBench 通过多项选择题来衡量视频语言模型的物理理解能力。与文献中的其他视频问答基准测试不同,MVPBench 旨在减少视频语言模型中常见的捷径解决方案,例如依赖于表面的视觉或文本线索和偏见。MVPBench 中的每个示例都有一个最小变化对:一个视觉上相似的视频,以及相同的问题,但答案相反。为了正确回答一个问题,模型还必须正确回答其对应的最小变化对。

第三个基准测试 ------CausalVQA 旨在关注模型对物理世界视频中因果关系的理解,包括反事实(如果...... 会发生什么)、预期(接下来可能会发生什么)和计划(为了实现目标应该采取什么行动)。

Meta 发现,虽然大型多模态模型越来越能够回答视频中发生了什么的问题,但它们仍然难以回答可能发生什么和接下来可能会发生什么的问题,这表明在预测物理世界在给定动作和事件空间的情况下可能如何演变方面,它们的表现与人类存在巨大差距。

V-JEPA 2 在 Hugging Face 关于物理推理榜单上排名第一,超越 GPT-4o 等。

地址:huggingface.co/spaces/face...

Meta 下一步会做什么

Meta 计划在多个领域进一步探索世界模型。目前,V-JEPA 2 能够在单一时间尺度上进行学习和预测。然而,许多任务需要跨多个时间尺度进行规划。想象一下,将一个高级任务分解成更小的步骤,例如装载洗碗机或烘烤蛋糕。Meta 希望专注于训练能够跨多个时间和空间尺度进行学习、推理和规划的分层 JEPA 模型。另一个重要方向是多模态 JEPA 模型,这些模型能够利用多种感官进行预测,包括视觉、听觉和触觉。

期待 Meta 接下来的更多研究。

参考链接:

ai.meta.com/blog/v-jepa...

相关推荐
中国胖子风清扬7 分钟前
Spring AI Alibaba + Ollama 实战:基于本地 Qwen3 的 Spring Boot 大模型应用
java·人工智能·spring boot·后端·spring·spring cloud·ai
A7bert77711 分钟前
【YOLOv5seg部署RK3588】模型训练→转换RKNN→开发板部署
linux·c++·人工智能·深度学习·yolo·目标检测
不会计算机的g_c__b15 分钟前
AI Agent:从概念到实践,解析智能体的未来趋势与挑战
人工智能
serve the people28 分钟前
tensorflow 零基础吃透:RaggedTensor 的不规则形状与广播机制 2
人工智能·python·tensorflow
donkey_199328 分钟前
ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect
人工智能·深度学习·目标检测·计算机视觉·语义分割·实例分割
周名彥30 分钟前
二十四芒星非硅基华夏原生AGI模型集群·全球发布声明(S∅-Omega级·纯念主权版)
人工智能·去中心化·知识图谱·量子计算·agi
周名彥32 分钟前
1Ω1[特殊字符]⊗雙朕周名彥實際物理載體|二十四芒星物理集群载体群:超級數據中心·AGI·IPO·GUI·智能體工作流
人工智能·神经网络·知识图谱·量子计算·agi
Leinwin34 分钟前
Microsoft 365 Copilot:更“懂你”的AI助手
人工智能·microsoft·copilot
后端小肥肠39 分钟前
从图文到视频,如何用Coze跑通“小红书儿童绘本”的商业闭环?
人工智能·aigc·coze
飞睿科技44 分钟前
ESP Audio Effects音频库迎来专业升级,v1.2.0 新增动态控制核心
人工智能·物联网·ffmpeg·智能家居·语音识别·乐鑫科技·esp