空间智能!李飞飞、LeCun&谢赛宁联手提出“空间超感知”,长文阐述世界模型蓝图

近日,由Yann LeCun、李飞飞、Rob Fergus等AI领域顶级学者共同署名的论文《Cambrian-S: Towards Spatial Supersensing in Video》首次系统性地提出了"空间超感知"的概念,并指出:空间智能是AI实现真正多模态理解与通用智能的关键路径。无独有偶,李飞飞随后发表长文《从文字到世界:空间智能是AI的下一个前沿》,进一步阐述了空间智能的核心价值与世界模型的构建蓝图。本文将从论文出发,结合李飞飞的深度思考,带你深入理解这一AI新范式。

论文解读:从"语言理解"到"空间超感知"

  • 反思现状:为什么说LLM是"空间盲人"?

三位作者指出,当前基于LLM的多模态系统存在根本性局限。LeCun多次公开表示,LLM技术无法通向AGI。谢赛宁在团队博客中坦言:在构建「超感知」之前,不可能真正构建出「超级智能」。

问题的核心在于:LLM虽然能处理文本和图像,却缺乏对3D空间的直觉理解。它们像是通过"钥匙孔"看世界------只能看到碎片化的2D画面,无法在脑海中构建连贯的3D场景。

这种缺陷暴露了莫拉维克悖论在AI领域的再现:对人类来说轻而易举的空间感知,对AI却难如登天。

  • 什么是"空间超感知"?

论文指出,当前的多模态大模型仍以语言为中心,缺乏对3D空间结构与动态的深层理解。为此,作者提出"空间超感知"的四个发展阶段:

  • 语义感知: 识别物体、属性与关系
  • 流事件认知: 处理连续、无界的视觉流
  • 隐式3D空间认知: 理解视频背后的3D世界结构
  • 预测性世界建模: 构建内部模型,预测未来状态并利用"惊讶"驱动学习与记忆

谢赛宁强调:"超感知不是更好的传感器,而是数字生命体验世界的方式。它是智能的一部分,正如眼睛是大脑触及外部世界的那一部分。"

  • 新基准:VSI-Super

为了评测空间超感知能力,作者提出了VSI-Super基准,包含两个极具挑战的任务:

  • VSR(视觉空间回忆): 在长视频中回忆异常物体出现的位置与顺序
  • VSC(连续视觉计数): 在跨场景、跨视角的视频中持续计数目标物体

这两个任务都要求模型具备选择性感知、结构化记忆与跨时间推理能力,而非简单地扩展上下文窗口。

结果令人震惊:即使是最先进的Gemini 2.5模型也表现不佳。问题不在上下文长度------即使视频在模型处理能力范围内,性能仍然有限。

更关键的是,人类可以"无限计数",而模型的计数能力会在几十个对象后达到饱和,暴露了其训练数据的分布限制。

  • Cambrian-S模型:数据驱动的空间认知突破

作者构建了大规模空间指令调优数据集VSI-590K,并训练了Cambrian-S系列模型。该模型在VSI-Bench等空间理解任务上取得了SOTA表现,甚至超越Gemini-2.5-Pro等闭源模型。

然而,Cambrian-S在VSI-Super上表现仍有限,说明仅靠数据与规模无法实现真正的空间超感知。

团队得出结论:沿着LLM的老路构建多模态模型,并非通往超感知的终极之道。

  • 新范式:预测性感知

论文提出 *"预测性感知" *作为下一代模型的核心能力。通过自监督的"下一帧潜在预测"模型,利用预测误差(即"惊讶")来:

  • 管理记忆: 选择性保留重要信息
  • 分割事件: 将连续视频流划分为有意义的片段

实验表明,该方法在VSI-Super上显著优于Gemini-2.5等强基线,展示了预测机制在处理长视频与空间任务上的潜力。

  • 开源与展望

团队将论文、代码、模型、数据和基准全面开源,并同步发布:

ruby 复制代码
论文地址:https://arxiv.org/pdf/2511.04670
Website:https://cambrian-mllm.github.io
Code:https://github.com/cambrian-mllm/cambrian-s
Cambrian-S Models:https://hf.co/collections/nyu-visionx/cambrian-s
VSI-590K:https://hf.co/datasets/nyu-visionx/vsi-590k
VSI-SUPER:https://hf.co/collections/nyu-visionx/vsi-super

关于消除基准中语言偏见的研究

使用模拟器收集空间感知视频的经验总结

谢赛宁表示:"我不敢说我们的方法就是正确道路,但我确信当前范式远远不够。开放科学才是唯一的出路。"

李飞飞长文深度解读:从文字到世界

在李飞飞最新发表的文章中,她进一步系统化地阐述了"空间智能"与"世界模型"的核心理念:

  • LLM是"空间盲人",缺乏世界根基

李飞飞在文章中犀利地指出,当前的LLM本质上是"黑暗中的文字匠"------能言善辩却无经验,知识丰富却缺乏根基。

它们能处理和生成文本,甚至分析和生成图像、视频,却无法在脑海中构建一个连贯、立体、符合物理规律的3D世界。估算距离、方向、大小,心智旋转物体,在迷宫中导航,预测基本物理规律------这些对人类而言轻而易举的空间认知任务,对最先进的AI来说却难如登天。

这揭示了莫拉维克悖论在AI时代的再现:对人类和动物来说最低级、最无需思考的感知和运动技能,对AI而言反而是最困难的挑战。

  • 空间智能:人类认知的"脚手架"

李飞飞指出,空间智能是人类理解、交互与创造世界的基础能力。从停车、接钥匙,到消防员在火场中决策,再到科学家通过几何推理发现地球周长,空间智能贯穿于人类的直觉、推理与创造之中。

"对AI而言,世界不止于语言,"李飞飞写道,"空间智能代表着超越语言的前沿。" 它是连接想象、感知与行动的关键,是机器真正融入并增强人类生活的基石。

  • 当前AI的局限:语言≠世界

尽管当前的大语言模型在文本、图像、视频生成上表现惊人,但它们仍缺乏对物理世界的几何一致性、物理规律与动态交互的理解。李飞飞称之为"黑暗中的文字匠"。

  • 世界模型的三大核心能力与三大技术挑战

如何实现空间智能?李飞飞提出了比LLM更具雄心的体系:世界模型。

她提出,真正具备空间智能的世界模型应具备以下能力:

  • 生成性: 能生成符合物理与几何规律的世界
  • 多模态: 能处理图像、视频、动作等多种输入
  • 交互性: 能预测世界在动作影响下的下一个状态

构建世界模型巨大挑战:

李飞飞分享了World Labs在此方向的探索:

  • 新训练目标: 需要找到像LLM的"下一个词预测"一样优雅的通用目标函数。
  • 大规模数据: 需从互联网2D视觉数据中有效提取3D空间信息,并利用合成数据。
  • 新模型架构: 需超越当前将数据视为1D/2D序列的Transformer和扩散模型范式。应用前景:从创造力到机器人,从科学到教育
  • 实践探索:从Marble平台到预测性感知

李飞飞透露,其初创公司World Labs已在此方向取得进展。其Marble平台是全球首个能通过多模态输入生成并保持一致性3D环境的世界模型,已向部分创作者开放。

与此同时,在开源的《Cambrian-S》论文中,LeCun、李飞飞、谢赛宁团队实践了"预测性感知"这一新范式。他们受认知科学启发,在模型中引入"下一帧潜在预测"模块,利用预测误差("惊异度")来驱动记忆管理和事件分割。这个简化的世界模型原型,已让小模型在极具挑战性的空间推理基准VSI-Super上超越了Gemini 2.5等强大基线。

  • 未来展望

空间智能的世界模型将如何改变世界?李飞飞描绘了清晰的图景:

  • 创造力: 如Marble平台,让创作者快速构建、编辑3D世界
  • 机器人: 通过世界模型仿真训练,实现泛化与协作

科学、医疗、教育:加速药物发现、提升诊断精度、构建沉浸式学习环境

总结

无论是LeCun、李飞飞等人的论文,还是李飞飞的深度长文,都指向同一个结论:空间智能是AI迈向通用智能的必经之路。当前以LLM为核心的范式已触及瓶颈,而融合生成、多模态与交互能力的世界模型,将成为下一代AI系统的核心。AI的发展路径正在从"通过文本来理解世界"的迂回策略,转向"直接感知与建模世界"的正面突破。

这不仅是技术的升级,更是一次认知的回归。它提醒我们,人类智能的辉煌,始于我们与这个三维空间世界的每一次互动、每一次预测和每一次创造。

我们正在为机器装上"空间感",这或许是赋予它们"常识"的第一步,也是走向真正通用人工智能最关键的一步。 从文字到世界的旅程已经启航,而它的终点,将是一个人类与智能机器共同理解、共同创造的美好未来。

相关推荐
Dave.B2 小时前
【VTK核心过滤器详解】:vtkCleanPolyData 多边形数据清洗实战指南
算法·vtk
学术小白人2 小时前
最后一轮征稿!2025年能源互联网与电气工程国际学术会议
人工智能·科技·计算机视觉·能源
AiXed2 小时前
PC微信 device uuid 算法
前端·算法·微信
合天网安实验室2 小时前
深度学习模型CNN识别恶意软件
深度学习·神经网络·机器学习
流烟默2 小时前
机器学习中交叉验证(CV)、CV fold(交叉验证折) 和 数据泄露
人工智能·深度学习·机器学习·交叉验证
@木辛梓3 小时前
指针,数组,变量
开发语言·c++·算法
guygg883 小时前
基于MATLAB的图像融合拼接GUI系统设计
opencv·计算机视觉·matlab
苏纪云3 小时前
数据结构期中复习
数据结构·算法
flashlight_hi3 小时前
LeetCode 分类刷题:141. 环形链表
javascript·算法·leetcode