【新智元导读】 李飞飞、谢赛宁团队又有重磅发现了:多模态 LLM 能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在 2025 年,空间智能的界限很可能会再次突破。
就在刚刚,李飞飞、谢赛宁等发现:多模态大语言模型居然能记住和回忆空间。
更震撼的是,MLLM 的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
共同一作:Jihan Yang,Shusheng Yang,Anjali W. Gupta,Rilyn Han
李飞飞表示,非常喜欢这项「空间思维」(Thinking in Space)的研究。空间推理对于人类智能来说,至关重要。在 2025 年,空间智能的界限很可能会再被突破。
谢赛宁也表示,大家和李飞飞进行的关于空间智能的有趣头脑风暴,已经发展成了 NYU、耶鲁和斯坦福之间的惊人合作。
他们相信,视觉空间智能在现实世界中的应用,比以往任何时候都更近了。比如 AI 眼镜,它可以向我们显示去过的地方,还能定位、导航。
因此,这个领域实在太令人着迷了。
前不久 Ilya 曾说,预训练结束了,数据如同化石燃料般难以再生,但不少研究者出来反驳说,人类只是用完了文本,海量的视频还在眼前。
此时李飞飞和谢赛宁的研究,可谓相当应景了。
更巧的是,就在不久前,谢赛宁还和 LeCun 等人合作完成了一项 MetaMorph 的工作。他们发现:LLM 离理解和生成视觉内容已经不远了。
这些测试,大模型被人类完败
在项目主页一开始,团队就放出了非常有趣的人类 AI 大 pk。
内容就是,和 Gemini 来比拼空间智能能力。
- 相对方向
比如这道题是,「如果我站在冰箱旁,正对着洗衣机,那么炉子是在左边、右边,还是在后面?」
备选答案是:A. 后面 B. 右边 C. 左边
模型依然数错了顺序。
总之,在这些 pk 中,模型被人类完爆。
多模态大模型已经展现出空间思维
毫无疑问,视频理解就是下一个前沿领域,然而,并非所有视频都是相似的。
现在,模型还可以根据 YouTube 剪辑和故事片进行推理,但对于日常生活中的空间,我们以及未来的 AI 助手能够作何应对呢?
为此,谢赛宁团队进行了一项最新研究,探索多模态大语言模型(MLLM)如何感知、记忆和回忆空间的。
在视觉领域,我们人类能够处理空间,却很少进行推理;而多模态大语言模型则善于思考,却往往忽略了空间逻辑。
然而,对于人类来说,无论是参加心理旋转测试,还是为新家挑选家具,我们都极度依赖于空间和视觉思维,而这种思维方式,却并不总能很好地转化为文字。
视频是一种自然媒介,反映了我们体验世界的方式,并且需要更长形式的推理,以及世界建模。
为了探索这一点,团队研究了涵盖各种视觉空间智能任务(包括关系和度量任务)的新基准。
所以,这个过程是如何获取数据和注释的呢?团队在之前 CV 工作的基础上,重新利用了已有的空间扫描视频(起初是用于 3D 重建),使用其真实注释来自动生成 VQA 问题。
同时,人类仍然参与其中,进行质量控制。
超过 5000 个问答对显示,MLLM 居然展现出了具有竞争力的视觉空间智能!
其中,Gemini Pro 的表现最为亮眼。
当然,它们仍然和人类存在差距。
这些任务对人类而言也并非易事(毕竟,我们自己也经常迷路),不过,人类会通过调整和优化自己的心智模型来适应,而目前的 LLM,暂时还无法做到这一点。
谢赛宁表示,自己在研究中最喜欢的部分,就是分析这些任务跟以语言为中心的智能有多么不同。
当被要求解释自己的推理过程时,LLM 就暴露出了自己的弱点:空间推理是它们的主要瓶颈,而非物体识别或语言能力。
在换位思考、第一到客观视角的转变上,它们通常表现得极其困难,并且在更长时间的推理过程中,容易失去对物体的追踪。
团队的另一个发现是,语言提示技术在这一领域并不奏效------像 CoT 或多数投票等方法,居然对任务产生了负面影响!
然而,这些技术在一般的视频分析任务(如 VideoMME)中,却是很有效的。
这就再次突显出一个重要区别:并非所有视频都是相同的,理解电影情节这样的任务更多依赖于基于语言的智能,而非视觉空间智能。
而最后这个结论,就更震撼了。
团队通过提示模型在笛卡尔网格上「可视化」其记忆,来探测它的能力,其中每个被占据的单元格代表一个物体的中心。
研究结果表明,在处理空间信息时,MLLM 并不是构建一个连贯的全局模型,而是从给定的视频中生成一系列局部化的世界模型。
但问题涉及相距较远的对象时,模型的性能会迅速下降,此时这种限制尤为明显。
这些观察表明,该领域未来研究的一个关键方向,就是开发更有效的空间记忆机制。
网友表示,这项关于「空间思维」的见解实在太精彩了。提高 MLLM 的视觉空间智能,可能会彻底改变 AI 助手。AI 在日常空间中的未来,实在令人兴奋。
有人说,从基于主观事实的模型中提取客观事实,看起来比 LLM 跟特斯拉 FSD 相结合更具挑战性,因为后者已经推理出了客观事实。
不过也有人说,视频理解的确是下一个前沿,但 MLLM 恐怕无法真正代表人类智能理解动态视觉信息的方式。
项目介绍
研究者想探讨的问题就是,当 MLLM 看视频时,它们是否在进行「空间思维」呢?
它们能否构建一个准确的、隐含的「认知地图」,来回答关于空间的问题?
使用 MLLM 增强空间智能,有哪些优势和局限性?
为此,研究者为 MLLM 准备了可供观看的视频数据,建立了视觉问答(VQA)基准,来探索它们在此过程中究竟实际记住和理解了什么。
他们开发了一个新颖的视频视觉 - 空间智能基准(VSI-Bench),包含超过 5,000 对问答对,发现 MLLM 虽有竞争力,但仍低于人类水平的视觉 - 空间智能。
为了更好地理解其行为,研究者探索了 MLLM 是如何从语言和视觉两个方面来表达空间思维的。
可以发现,尽管空间推理能力仍是其主要瓶颈,但 MLLM 已经逐渐显现出了局部世界模型和空间意识。
VSI-Bench
研究者开发了 VSI-Bench,这是一个基准测试,用于通过超过 5,000 对问答对,来评估 MLLM 的视觉 - 空间智能。
这些问答对来源于公共室内 3D 场景重建数据集 ScanNet、ScanNet++ 和 ARKitScenes 验证集中的 288 段第一视角视频。
VSI-Bench 包含八项任务,分为三种任务类型:配置类、测量估算类和时空类。
图 2 显示了有关 VSI-Bench 任务的概览;图 3 显示了有关数据集的统计信息。
图 2 VSI-Bench 的任务演示
图 3 基准统计信息。左:三大类任务的分布;右:视频长度统计
通过迭代优化提升质量,VSI-Bench 为研究 MLLM 与 3D 重建之间的联系奠定了基础。
研究者开发了一套稳健的流水线来构建 VSI-Bench,以支持大规模生成高质量的问答对。
从数据收集与统一化开始,他们将多样化的 3D 室内场景数据集标准化为统一的元信息格式,整合对象类别、边界框和视频规格,以支持与数据集无关的问答生成。
问答对通过从元信息中自动注释和基于任务的问题模板生成,其中路径规划任务由人工注释完成。
为确保质量,研究者审查流程由人类参与,通过解决评估者标记的歧义和错误,对问题模板、注释和问答生成规则进行迭代优化。
图 4 基准策划流水线。该流水线将数据集统一为标准化格式和语义空间,以确保一致性处理
VSI-Bench 评估
研究者对来自不同模型家族的 15 种支持视频的 MLLM 进行了基准测试。
闭源模型中,他们评估了 Gemini-1.5 和 GPT-4o。开源模型中,他们评估了 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 的模型。
所有评估均在零样本学习设置下进行,使用默认提示词和贪婪解码,以确保结果可复现。
任务采用多选答案(MCA)准确率,或研究者提出的数值答案(NA)任务的平均相对准确率(MRA),来进行评估。
基线包括随机选择和基于频率的选项选择,以识别因分布偏差带来的性能提升。
此外,他们还在随机抽样的 400 个问题子集(VSI-Bench tiny)上评估了人类的表现,并与 Gemini-1.5 Pro 进行了比较。
- 结果
结果显示,人类评估者的平均准确率达到了 79%,比最佳模型高出 33%,在配置类和时空类任务上表现接近完美(94%-100%)。
然而,在需要精确估算的测量任务上,这一差距却缩小了,MLLM 在定量任务中表现出相对优势。
在闭源模型中,Gemini-1.5 Pro 的表现突出,显著超越随机基线,并在绝对距离和房间大小估算等任务中接近人类水平,尽管它仅仅接受过 2D 数字数据的训练。
表现最好的开源模型如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 的表现也很亮眼,仅仅比 Gemini-1.5 Pro 低 4%-5%。
然而,大多数开源模型(12 个中的 7 个)都低于随机基线,暴露出在视觉 - 空间智能方面的巨大缺陷。
表 1 VSI-Bench 的评估结果。左:深灰色表示所有模型中最佳结果,浅灰色表示开源模型中的最佳结果;右:人类、两个闭源模型以及 Top 3 开源模型的结果
- 盲测
研究者将 MLLM 的表现与「随机水平(基于频率)」和「禁用视觉模式」结果进行了比较,对六个顶级模型(三个开源模型和三个闭源模型)进行了平均。
在「启用 - 禁用」模式下的一致改进以及「禁用 - 随机」模式下的普遍退化,凸显了视频输入对 VSI-Bench 的重要性,因为禁用视觉模式的模型表现低于随机水平。
然而,MLLM 在绝对距离估算、路径规划和相对方向等任务上难以超越随机水平,这反映了这些任务的固有难度。
有趣的是,禁用视觉模式的模型在物体大小任务上显著优于随机水平,这可能是因为语言模型训练中已经整合进了常识知识。
图 5 视觉启用(有视频)、禁用视觉模式(无视频)和随机水平(基于频率)之间的比较
在空间中,MLLM 如何以语言思考
为了更好地理解模型何时以及为何会成功或失败,并阐明它们所具备的视觉 - 空间智能的各个方面,团队研究了 MLLM 如何在空间中以语言进行思考。
在成功的示例中,模型展示了高级的视频理解能力,提供了准确的时间戳描述和正确的逐步推理过程。
全局坐标系的使用表明,MLLM 可能通过整合空间上下文和推理,构建了出了一些隐式世界模型。
在错误的案例中,模型在第一与客观视角之间的转换中失败了。由于依赖第一视角错误地解读了视频序列,从而导致了错误的空间推理。
图 6 MLLM 在自我解释中展示了自己是如何思考的
- 错误分析
对在 VSI-Bench tiny 上表现最好的 MLLM 的错误分析显示,主要存在四种错误类型:视觉感知、语言智能、关系推理,以及第一与客观视角之间的转换。
图 7 显示,71% 的错误源于空间推理,特别是在理解距离、大小和方向等方面。
这表明,空间推理仍然是提升 MLLM 在 VSI-Bench 上表现的关键瓶颈。
图 7 按类型进行的人类错误分析
发现 1:空间推理是 MLLM 在 VSI-Bench 上表现的主要瓶颈
- CoT 方法在视觉空间任务中的局限性
团队研究了三种提示词技术------零样本 CoT(Zero-Shot CoT)、带自洽性的 CoT(Self-Consistency with CoT)以及思维树(ToT),以改进 MLLM 在 VSI-Bench 上的推理能力。
令人惊讶的是,这三种方法都导致了性能下降(见图 8),其中零样本 CoT 和 ToT 使平均性能下降了 4%,而带自洽性的 CoT 则比基线低了 1.1%。
尽管在任务顺序和绝对距离估算任务中,由于语言错误的减少而略有改善,但房间大小和物体大小任务的性能却大幅下降了 8% 至 21%,表明鼓励模型进行更多推理不仅不可靠,甚至可能有害。
图 8 CoT、自洽性和思维树相较于基线的相对改进
同时,如表 2 所示,零样本 CoT 在通用视频理解基准 VideoMME 上,实现了 1.6% 的性能提升。
表 2 Gemini-1.5 Pro 在 VideoMME 的 500 个问题子集上的 CoT 表现
发现 2:尽管语言提示技术在语言推理和通用视觉任务中有效,但对空间推理而言往往有害。
在视觉上,MLLM 如何思考空间
人类在进行空间推理时,会下意识地构建空间的心理模型。
那 MLLM 是如何记忆空间的呢?
- 通过认知地图进行探测
团队通过提示 Gemini-1.5 Pro 基于视频输入,预测 10×10 网格中物体中心位置的表现,评估了 MLLM 创建认知地图(一种空间表征框架)的能力。
测量准确性,靠的是比较预测的物体距离与真实值(GT)地图的偏差,偏差在一个网格单位以内的,都被视为正确。
结果显示,模型在定位近距离物体时达到了 64% 的准确率,展示了强大的局部空间感知能力。
然而,当距离变得较大时,模型就显得困难重重了,这也反映出模型从离散的视频帧中构建全局空间模型表征的挑战。
图 9 左:MLLM 和真实值(GT)认知地图的可视化。右:MLLM 预测的认知地图的局部性
发现 3:在记忆空间时,MLLM 从给定视频中在其「脑海中」形成一系列局部世界模型,而非统一的全局模型
- 通过认知地图改进距离推理
团队通过提示 Gemini-1.5 Pro 从视频输入生成地图并使用其回答相对距离问题,探索了认知地图是否可以增强 MLLM 的空间推理能力。
结果显示,使用模型自身生成的地图,准确率提升了 10%;使用真实值(GT)地图,准确率提升了 20%-32%,这突显了准确的心理图像在强化全局场景拓扑中的价值。
这表明,认知映射是一种改进 MLLM 视觉 - 空间推理的极有前景的方法。
表 3 基于认知地图的相对距离任务分析
LLM 距离「既能理解,又能生成」视觉内容,还有多远?
无独有偶,谢赛宁和 LeCun 的团队,前不久还刚刚提出了一种全新的多模态理解与生成模型------MetaMorph。
简单来说,当与视觉理解任务联合训练时,仅需极少量的生成数据即可激发 LLM 的视觉生成能力。
通讯作者:Shengbang Tong,Zhuang Liu
在这项工作中,团队将视觉指令微调扩展成了视觉预测指令微调(VPiT)------让 LLM 可以对视觉和文本 token 进行预测,而无需对模型架构进行大幅修改或进行额外的预训练。
其中,关键发现有三点:
-
生成和理解是相辅相成的。实验结果显示,随着模型理解能力的提升,视觉生成也会自然涌现------在联合训练的情况下,仅需要 200K 个样本即可实现,而传统方法通常需要数百万样本。
-
视觉预测指令微调(VPiT)将现有的指令微调进行了扩展,使其能够同时预测连续的视觉 token 和离散的文本 token。如此一来,便可在保持指令微调高效性的同时,显著增强模型的多模态能力。
-
经过 VPiT 训练后的模型,展现出了一种「模态统一」的有趣现象------模型不仅能够利用大语言模型的知识进行生成,还能在生成视觉 token 之前进行隐式推理推理。
LLM 距离成为「统一模型」已经非常接近了!
参考资料: