李飞飞谢赛宁：多模态 LLM「空间大脑」觉醒，惊现世界模型雏形！

【新智元导读】 李飞飞、谢赛宁团队又有重磅发现了：多模态 LLM 能够记住和回忆空间，甚至内部已经形成了局部世界模型，表现了空间意识！李飞飞兴奋表示，在 2025 年，空间智能的界限很可能会再次突破。

就在刚刚，李飞飞、谢赛宁等发现：多模态大语言模型居然能记住和回忆空间。

更震撼的是，MLLM 的空间推理能力虽然仍是瓶颈，但这些模型中，已经出现了局部世界模型和空间意识的迹象！

论文地址：arxiv.org/abs/2412.14...

共同一作：Jihan Yang，Shusheng Yang，Anjali W. Gupta，Rilyn Han

李飞飞表示，非常喜欢这项「空间思维」（Thinking in Space）的研究。空间推理对于人类智能来说，至关重要。在 2025 年，空间智能的界限很可能会再被突破。

谢赛宁也表示，大家和李飞飞进行的关于空间智能的有趣头脑风暴，已经发展成了 NYU、耶鲁和斯坦福之间的惊人合作。

他们相信，视觉空间智能在现实世界中的应用，比以往任何时候都更近了。比如 AI 眼镜，它可以向我们显示去过的地方，还能定位、导航。

因此，这个领域实在太令人着迷了。

前不久 Ilya 曾说，预训练结束了，数据如同化石燃料般难以再生，但不少研究者出来反驳说，人类只是用完了文本，海量的视频还在眼前。

此时李飞飞和谢赛宁的研究，可谓相当应景了。

更巧的是，就在不久前，谢赛宁还和 LeCun 等人合作完成了一项 MetaMorph 的工作。他们发现：LLM 离理解和生成视觉内容已经不远了。

这些测试，大模型被人类完败

在项目主页一开始，团队就放出了非常有趣的人类 AI 大 pk。

内容就是，和 Gemini 来比拼空间智能能力。

- 相对方向

比如这道题是，「如果我站在冰箱旁，正对着洗衣机，那么炉子是在左边、右边，还是在后面？」

备选答案是：A. 后面 B. 右边 C. 左边

视频详情

模型依然数错了顺序。

总之，在这些 pk 中，模型被人类完爆。

多模态大模型已经展现出空间思维

毫无疑问，视频理解就是下一个前沿领域，然而，并非所有视频都是相似的。

现在，模型还可以根据 YouTube 剪辑和故事片进行推理，但对于日常生活中的空间，我们以及未来的 AI 助手能够作何应对呢？

为此，谢赛宁团队进行了一项最新研究，探索多模态大语言模型（MLLM）如何感知、记忆和回忆空间的。

在视觉领域，我们人类能够处理空间，却很少进行推理；而多模态大语言模型则善于思考，却往往忽略了空间逻辑。

然而，对于人类来说，无论是参加心理旋转测试，还是为新家挑选家具，我们都极度依赖于空间和视觉思维，而这种思维方式，却并不总能很好地转化为文字。

视频是一种自然媒介，反映了我们体验世界的方式，并且需要更长形式的推理，以及世界建模。

为了探索这一点，团队研究了涵盖各种视觉空间智能任务（包括关系和度量任务）的新基准。

所以，这个过程是如何获取数据和注释的呢？团队在之前 CV 工作的基础上，重新利用了已有的空间扫描视频（起初是用于 3D 重建），使用其真实注释来自动生成 VQA 问题。

同时，人类仍然参与其中，进行质量控制。

超过 5000 个问答对显示，MLLM 居然展现出了具有竞争力的视觉空间智能！

其中，Gemini Pro 的表现最为亮眼。

当然，它们仍然和人类存在差距。

这些任务对人类而言也并非易事（毕竟，我们自己也经常迷路），不过，人类会通过调整和优化自己的心智模型来适应，而目前的 LLM，暂时还无法做到这一点。

谢赛宁表示，自己在研究中最喜欢的部分，就是分析这些任务跟以语言为中心的智能有多么不同。

当被要求解释自己的推理过程时，LLM 就暴露出了自己的弱点：空间推理是它们的主要瓶颈，而非物体识别或语言能力。

在换位思考、第一到客观视角的转变上，它们通常表现得极其困难，并且在更长时间的推理过程中，容易失去对物体的追踪。

团队的另一个发现是，语言提示技术在这一领域并不奏效------像 CoT 或多数投票等方法，居然对任务产生了负面影响！

然而，这些技术在一般的视频分析任务（如 VideoMME）中，却是很有效的。

这就再次突显出一个重要区别：并非所有视频都是相同的，理解电影情节这样的任务更多依赖于基于语言的智能，而非视觉空间智能。

而最后这个结论，就更震撼了。

团队通过提示模型在笛卡尔网格上「可视化」其记忆，来探测它的能力，其中每个被占据的单元格代表一个物体的中心。

研究结果表明，在处理空间信息时，MLLM 并不是构建一个连贯的全局模型，而是从给定的视频中生成一系列局部化的世界模型。

但问题涉及相距较远的对象时，模型的性能会迅速下降，此时这种限制尤为明显。

这些观察表明，该领域未来研究的一个关键方向，就是开发更有效的空间记忆机制。

网友表示，这项关于「空间思维」的见解实在太精彩了。提高 MLLM 的视觉空间智能，可能会彻底改变 AI 助手。AI 在日常空间中的未来，实在令人兴奋。

有人说，从基于主观事实的模型中提取客观事实，看起来比 LLM 跟特斯拉 FSD 相结合更具挑战性，因为后者已经推理出了客观事实。

不过也有人说，视频理解的确是下一个前沿，但 MLLM 恐怕无法真正代表人类智能理解动态视觉信息的方式。

项目介绍

研究者想探讨的问题就是，当 MLLM 看视频时，它们是否在进行「空间思维」呢？

它们能否构建一个准确的、隐含的「认知地图」，来回答关于空间的问题？

使用 MLLM 增强空间智能，有哪些优势和局限性？

为此，研究者为 MLLM 准备了可供观看的视频数据，建立了视觉问答（VQA）基准，来探索它们在此过程中究竟实际记住和理解了什么。

他们开发了一个新颖的视频视觉 - 空间智能基准（VSI-Bench），包含超过 5,000 对问答对，发现 MLLM 虽有竞争力，但仍低于人类水平的视觉 - 空间智能。

为了更好地理解其行为，研究者探索了 MLLM 是如何从语言和视觉两个方面来表达空间思维的。

可以发现，尽管空间推理能力仍是其主要瓶颈，但 MLLM 已经逐渐显现出了局部世界模型和空间意识。

VSI-Bench

研究者开发了 VSI-Bench，这是一个基准测试，用于通过超过 5,000 对问答对，来评估 MLLM 的视觉 - 空间智能。

这些问答对来源于公共室内 3D 场景重建数据集 ScanNet、ScanNet++ 和 ARKitScenes 验证集中的 288 段第一视角视频。

VSI-Bench 包含八项任务，分为三种任务类型：配置类、测量估算类和时空类。

图 2 显示了有关 VSI-Bench 任务的概览；图 3 显示了有关数据集的统计信息。

图 2 VSI-Bench 的任务演示

图 3 基准统计信息。左：三大类任务的分布；右：视频长度统计

通过迭代优化提升质量，VSI-Bench 为研究 MLLM 与 3D 重建之间的联系奠定了基础。

研究者开发了一套稳健的流水线来构建 VSI-Bench，以支持大规模生成高质量的问答对。

从数据收集与统一化开始，他们将多样化的 3D 室内场景数据集标准化为统一的元信息格式，整合对象类别、边界框和视频规格，以支持与数据集无关的问答生成。

问答对通过从元信息中自动注释和基于任务的问题模板生成，其中路径规划任务由人工注释完成。

为确保质量，研究者审查流程由人类参与，通过解决评估者标记的歧义和错误，对问题模板、注释和问答生成规则进行迭代优化。

图 4 基准策划流水线。该流水线将数据集统一为标准化格式和语义空间，以确保一致性处理

VSI-Bench 评估

研究者对来自不同模型家族的 15 种支持视频的 MLLM 进行了基准测试。

闭源模型中，他们评估了 Gemini-1.5 和 GPT-4o。开源模型中，他们评估了 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 的模型。

所有评估均在零样本学习设置下进行，使用默认提示词和贪婪解码，以确保结果可复现。

任务采用多选答案（MCA）准确率，或研究者提出的数值答案（NA）任务的平均相对准确率（MRA），来进行评估。

基线包括随机选择和基于频率的选项选择，以识别因分布偏差带来的性能提升。

此外，他们还在随机抽样的 400 个问题子集（VSI-Bench tiny）上评估了人类的表现，并与 Gemini-1.5 Pro 进行了比较。

- 结果

结果显示，人类评估者的平均准确率达到了 79%，比最佳模型高出 33%，在配置类和时空类任务上表现接近完美（94%-100%）。

然而，在需要精确估算的测量任务上，这一差距却缩小了，MLLM 在定量任务中表现出相对优势。

在闭源模型中，Gemini-1.5 Pro 的表现突出，显著超越随机基线，并在绝对距离和房间大小估算等任务中接近人类水平，尽管它仅仅接受过 2D 数字数据的训练。

表现最好的开源模型如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 的表现也很亮眼，仅仅比 Gemini-1.5 Pro 低 4%-5%。

然而，大多数开源模型（12 个中的 7 个）都低于随机基线，暴露出在视觉 - 空间智能方面的巨大缺陷。

表 1 VSI-Bench 的评估结果。左：深灰色表示所有模型中最佳结果，浅灰色表示开源模型中的最佳结果；右：人类、两个闭源模型以及 Top 3 开源模型的结果

- 盲测

研究者将 MLLM 的表现与「随机水平（基于频率）」和「禁用视觉模式」结果进行了比较，对六个顶级模型（三个开源模型和三个闭源模型）进行了平均。

在「启用 - 禁用」模式下的一致改进以及「禁用 - 随机」模式下的普遍退化，凸显了视频输入对 VSI-Bench 的重要性，因为禁用视觉模式的模型表现低于随机水平。

然而，MLLM 在绝对距离估算、路径规划和相对方向等任务上难以超越随机水平，这反映了这些任务的固有难度。

有趣的是，禁用视觉模式的模型在物体大小任务上显著优于随机水平，这可能是因为语言模型训练中已经整合进了常识知识。

图 5 视觉启用（有视频）、禁用视觉模式（无视频）和随机水平（基于频率）之间的比较

在空间中，MLLM 如何以语言思考

为了更好地理解模型何时以及为何会成功或失败，并阐明它们所具备的视觉 - 空间智能的各个方面，团队研究了 MLLM 如何在空间中以语言进行思考。

在成功的示例中，模型展示了高级的视频理解能力，提供了准确的时间戳描述和正确的逐步推理过程。

全局坐标系的使用表明，MLLM 可能通过整合空间上下文和推理，构建了出了一些隐式世界模型。

在错误的案例中，模型在第一与客观视角之间的转换中失败了。由于依赖第一视角错误地解读了视频序列，从而导致了错误的空间推理。

图 6 MLLM 在自我解释中展示了自己是如何思考的

- 错误分析

对在 VSI-Bench tiny 上表现最好的 MLLM 的错误分析显示，主要存在四种错误类型：视觉感知、语言智能、关系推理，以及第一与客观视角之间的转换。

图 7 显示，71% 的错误源于空间推理，特别是在理解距离、大小和方向等方面。

这表明，空间推理仍然是提升 MLLM 在 VSI-Bench 上表现的关键瓶颈。

图 7 按类型进行的人类错误分析

发现 1：空间推理是 MLLM 在 VSI-Bench 上表现的主要瓶颈

- CoT 方法在视觉空间任务中的局限性

团队研究了三种提示词技术------零样本 CoT（Zero-Shot CoT）、带自洽性的 CoT（Self-Consistency with CoT）以及思维树（ToT），以改进 MLLM 在 VSI-Bench 上的推理能力。

令人惊讶的是，这三种方法都导致了性能下降（见图 8），其中零样本 CoT 和 ToT 使平均性能下降了 4%，而带自洽性的 CoT 则比基线低了 1.1%。

尽管在任务顺序和绝对距离估算任务中，由于语言错误的减少而略有改善，但房间大小和物体大小任务的性能却大幅下降了 8% 至 21%，表明鼓励模型进行更多推理不仅不可靠，甚至可能有害。

图 8 CoT、自洽性和思维树相较于基线的相对改进

同时，如表 2 所示，零样本 CoT 在通用视频理解基准 VideoMME 上，实现了 1.6% 的性能提升。

表 2 Gemini-1.5 Pro 在 VideoMME 的 500 个问题子集上的 CoT 表现

发现 2：尽管语言提示技术在语言推理和通用视觉任务中有效，但对空间推理而言往往有害。

在视觉上，MLLM 如何思考空间

人类在进行空间推理时，会下意识地构建空间的心理模型。

那 MLLM 是如何记忆空间的呢？

- 通过认知地图进行探测

团队通过提示 Gemini-1.5 Pro 基于视频输入，预测 10×10 网格中物体中心位置的表现，评估了 MLLM 创建认知地图（一种空间表征框架）的能力。

测量准确性，靠的是比较预测的物体距离与真实值（GT）地图的偏差，偏差在一个网格单位以内的，都被视为正确。

结果显示，模型在定位近距离物体时达到了 64% 的准确率，展示了强大的局部空间感知能力。

然而，当距离变得较大时，模型就显得困难重重了，这也反映出模型从离散的视频帧中构建全局空间模型表征的挑战。

图 9 左：MLLM 和真实值（GT）认知地图的可视化。右：MLLM 预测的认知地图的局部性

发现 3：在记忆空间时，MLLM 从给定视频中在其「脑海中」形成一系列局部世界模型，而非统一的全局模型

- 通过认知地图改进距离推理

团队通过提示 Gemini-1.5 Pro 从视频输入生成地图并使用其回答相对距离问题，探索了认知地图是否可以增强 MLLM 的空间推理能力。

结果显示，使用模型自身生成的地图，准确率提升了 10%；使用真实值（GT）地图，准确率提升了 20%-32%，这突显了准确的心理图像在强化全局场景拓扑中的价值。

这表明，认知映射是一种改进 MLLM 视觉 - 空间推理的极有前景的方法。

表 3 基于认知地图的相对距离任务分析

LLM 距离「既能理解，又能生成」视觉内容，还有多远？

无独有偶，谢赛宁和 LeCun 的团队，前不久还刚刚提出了一种全新的多模态理解与生成模型------MetaMorph。

简单来说，当与视觉理解任务联合训练时，仅需极少量的生成数据即可激发 LLM 的视觉生成能力。

论文地址：arxiv.org/abs/2412.14...

通讯作者：Shengbang Tong，Zhuang Liu

在这项工作中，团队将视觉指令微调扩展成了视觉预测指令微调（VPiT）------让 LLM 可以对视觉和文本 token 进行预测，而无需对模型架构进行大幅修改或进行额外的预训练。

其中，关键发现有三点：

生成和理解是相辅相成的。实验结果显示，随着模型理解能力的提升，视觉生成也会自然涌现------在联合训练的情况下，仅需要 200K 个样本即可实现，而传统方法通常需要数百万样本。
视觉预测指令微调（VPiT）将现有的指令微调进行了扩展，使其能够同时预测连续的视觉 token 和离散的文本 token。如此一来，便可在保持指令微调高效性的同时，显著增强模型的多模态能力。
经过 VPiT 训练后的模型，展现出了一种「模态统一」的有趣现象------模型不仅能够利用大语言模型的知识进行生成，还能在生成视觉 token 之前进行隐式推理推理。

LLM 距离成为「统一模型」已经非常接近了！

参考资料：

x.com/sainingxie/...

vision-x-nyu.github.io/thinking-in...

x.com/TongPetersb...