这篇文章的核心研究内容是探索如何推动多模态大语言模型(MLLM)在视频理解中的空间超感知能力(Spatial Supersensing),并提出了一个新的基准测试和模型框架来实现这一目标。以下是文章的主要研究内容和贡献的总结:
1. 研究背景与动机
-
多模态智能的局限性:当前的多模态大语言模型(MLLM)在处理视频时,大多依赖于语言中心的感知和暴力穷举长上下文,缺乏对视频的真正空间理解能力。
-
空间超感知的定义:作者提出了"空间超感知"的概念,将其定义为超越单纯语言理解的四个阶段:语义感知、连续事件认知、隐式三维空间认知和预测性世界建模。
2. 空间超感知的基准测试
-
现有基准测试的局限性:作者分析了现有的视频基准测试,发现它们大多集中在语言理解和语义感知上,忽视了更高级的空间和时间推理能力。
-
VSI-SUPER 基准测试:为了填补这一空白,作者提出了 VSI-SUPER,一个包含两个任务(VSR 和 VSC)的基准测试,用于评估模型在长期视频中的空间观察和回忆能力以及持续计数能力。这些任务设计为对暴力穷举上下文具有抵抗力,要求模型进行选择性和结构化的感知。
3. 数据集和模型
-
VSI-590K 数据集:作者策划了一个大规模的空间视频指令调优数据集 VSI-590K,用于训练和评估模型的空间认知能力。
-
Cambrian-S 模型:基于 VSI-590K 数据集,作者训练了 Cambrian-S 模型系列。这些模型在标准的空间认知基准测试(如 VSI-Bench)上表现出色,但在 VSI-SUPER 上的表现仍然有限,表明仅靠数据扩展是不足以实现空间超感知的。
4. 预测性感知作为新范式
-
预测性感知的概念:作者提出预测性感知作为一种新的范式,通过自监督的下一潜在帧预测来实现。模型利用预测误差("惊喜")来驱动记忆管理和事件分割。
-
案例研究:
-
VSI-SUPER 回忆(VSR):通过基于惊喜的记忆管理系统,模型能够在长视频中保持一致的准确率和稳定的 GPU 内存占用。
-
VSI-SUPER 计数(VSC):通过基于惊喜的事件分割,模型能够更有效地处理长视频中的计数任务,显著优于现有的长上下文和流式视频模型。
-
5. 实验结果
-
VSI-SUPER 上的表现:Cambrian-S 在 VSI-SUPER 上的表现显著优于 Gemini-2.5-Flash 等前沿模型,尤其是在长视频任务上。
-
数据扩展的局限性:尽管 Cambrian-S 在 VSI-Bench 上取得了显著提升,但在 VSI-SUPER 上的表现仍然有限,表明仅靠数据扩展是不足以实现空间超感知的。
-
预测性感知的有效性:通过预测性感知,模型能够更高效地处理无界视觉流,展示了预测性感知在空间超感知中的潜力。
6. 结论与展望
-
范式转变的必要性:作者强调,为了实现真正的空间超感知,需要从当前的数据驱动和语言中心的范式转向预测性感知和内部世界建模的新范式。
-
未来工作:作者建议未来的研究应该探索更多样化的场景,构建更强的连接,并与最近的视觉、语言和世界建模进展相结合。
核心贡献
-
提出了空间超感知的概念,并定义了从语义感知到预测性世界建模的四个阶段。
-
引入了 VSI-SUPER 基准测试,揭示了当前 MLLM 在空间超感知方面的局限性。
-
开发了 Cambrian-S 模型,在标准空间认知基准测试中取得了最先进的性能,为空间超感知提供了新的基线。
-
提出了预测性感知作为新的研究方向,并通过实验验证了其在长视频任务中的有效性。
这篇文章不仅提出了一个新的研究方向,还通过实验验证了其有效性,为未来多模态智能的发展提供了重要的指导。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目主页地址在这里,如下所示:

项目地址在这里,如下所示:

模型发布地址在这里,如下所示:

VSI-590K数据地址在这里,如下所示:

VSI-SUPER数据地址在这里,如下所示:


摘要
我们认为,真正的多模态智能的进步需要从依赖于反应式、任务驱动的系统和依赖于暴力穷举长上下文的方法,转向更广泛的空间超感知范式。我们将空间超感知定义为超越单纯语言理解的四个阶段:语义感知(对所见事物进行命名)、连续事件认知(在连续体验中维持记忆)、隐式三维空间认知(从像素中推断世界)以及预测性世界建模(创建用于筛选和组织信息的内部模型)。当前的基准测试大多只测试早期阶段,对空间认知的覆盖范围狭窄,很少以需要真正世界建模的方式挑战模型。为了推动空间超感知的进步,我们提出了 VSI-SUPER,这是一个包含两部分的基准测试:VSR(长期视觉空间回忆)和 VSC(持续视觉空间计数)。这些任务需要任意长度的视频输入,但对暴力穷举上下文具有抵抗力。我们通过策划 VSI-590K 数据集并训练 Cambrian-S 模型,测试了数据扩展的极限,实现了在 VSI-Bench 上 +30% 的绝对提升,而没有牺牲通用能力。然而,在 VSI-SUPER 上的表现仍然有限,表明仅靠规模是不足以实现空间超感知的。我们提出预测性感知作为前进的方向,并通过一个概念验证展示了自监督的下一潜在帧预测器如何利用"惊喜"(预测误差)来驱动记忆和事件分割。在 VSI-SUPER 上,这种方法显著优于领先的专有基线,表明空间超感知需要的模型不仅要能够"看",还要能够"预测"、"选择"和"组织"。
1. 引言
视频不仅仅是一系列孤立的帧。它是一个持续的、高带宽的三维世界在像素上的投影。尽管多模态大语言模型(MLLM)通过将强大的图像编码器与语言模型结合而迅速发展,但大多数视频扩展仍然受到根本性限制。它们仍然将视频视为稀疏的帧,低估了空间结构和动态性,并且过度依赖于文本回忆,从而忽略了视频模态的独特力量。
在本文中,我们认为,向真正的多模态智能迈进需要从以语言为中心的感知转向空间超感知:不仅能够"看",还能从持续的感官体验中构建、更新和预测三维世界的隐式模型。我们并不声称在这里实现了超感知;相反,我们迈出了朝这个方向的初步步伐,通过阐述可能导致这一方向的发展路径,并展示沿着这一路径的早期原型:
-
(仅语言理解):没有感知能力;推理仅限于文本和符号。当前的 MLLM 已经超越了这一阶段,但仍保留了其偏见的痕迹。
-
语义感知:将像素解析为对象、属性和关系。这对应于 MLLM 中强大的多模态"展示和讲述"能力。
-
连续事件认知:处理实时、无界的流,同时主动解释和响应正在进行的事件。这与使 MLLM 成为实时助手的努力一致。
-
隐式三维空间认知:将视频理解为三维世界的投影。代理必须知道什么存在、在哪里、事物如何关联以及配置如何随时间变化。今天的视频模型在这方面仍然有限。
-
预测性世界建模:大脑通过基于先验预期预测潜在世界状态来进行无意识推断。当这些预测被违反时,惊喜引导注意力、记忆和学习。然而,当前的多模态系统缺乏一个能够预测未来状态并利用惊喜来组织感知以用于记忆和决策的内部模型。
本文分为三个部分。首先(第 2 节),我们通过超感知层次结构重新审视现有基准测试。我们发现,大多数基准测试映射到前几个阶段,而一些基准测试(如 VSI-Bench)开始探索空间推理。然而,没有一个基准测试充分解决了预测性世界建模这一关键的最后阶段。为了使这一差距具体化并激励方法的转变,我们引入了 VSI-SUPER(VSI 代表视觉空间智能),这是一个用于空间超感知的两部分基准测试:VSI-SUPER 回忆(VSR)针对长期空间观察和回忆,而 VSI-SUPER 计数(VSC)测试在不断变化的视角和场景下的持续计数。这些任务是基于任意长度的时空视频构建的,它们被故意设计为对当前主流多模态方法具有抵抗力;它们要求感知是有选择性和有结构的,而不是不加选择地积累。我们展示了即使是最好的长上下文商业模型在这些任务上也表现不佳。
其次(第 3 节),我们研究空间超感知是否仅仅是数据问题。我们策划了 VSI-590K,这是一个专注于空间的图像和视频指令调优语料库,我们用它来训练 Cambrian-S,这是一个空间化的视频 MLLM 模型系列。在当前范式下,精心设计的数据和训练推动 Cambrian-S 在 VSI-BENCH 上实现了最先进的空间认知(>30% 的绝对增益),而没有牺牲通用能力。然而,Cambrian-S 在 VSI-SUPER 上仍然表现不佳,表明尽管规模奠定了重要的基础,但它本身不足以实现空间超感知。
这激发了第三部分(第 4 节),我们提出预测性感知作为一种新范式的第一步。我们提出了一个基于自监督下一潜在帧预测的概念验证解决方案。在这里,我们利用模型的预测误差或"惊喜",用于两个关键功能:(1)通过为意外事件分配资源来管理记忆,以及(2)事件分割,将无界流分解为有意义的块。我们证明了这种方法虽然简单,但显著优于强大的长上下文基线(如 Gemini-2.5),为真正的超感知需要模型不仅能够"看",还要积极预测并从经验中学习提供了有力的证据。
我们的工作做出了以下贡献:(1)我们定义了一个空间超感知的层次结构,并引入了 VSI-SUPER,一个揭示当前范式局限性的超感知基准测试。(2)我们开发了 Cambrian-S,一个推动空间认知极限的最先进的模型。Cambrian-S 作为一个强大的新基线,并且通过在新基准测试上界定当前方法的边界,为新范式铺平了道路。(3)我们提出了预测性感知作为 MLLM 的一个有希望的新方向,证明了利用模型惊喜比被动上下文扩展更有效地用于长期空间推理。
2. 空间超感知的基准测试
为了为我们的空间超感知研究奠定基础,我们首先需要明确如何衡量这种能力。本节通过两部分研究来探讨基准测试空间超感知的方法。我们首先对一系列流行的视频多模态语言模型(MLLM)基准测试进行审计,分析结果(图3)表明,这些基准测试大多集中在语言理解和语义感知上,而忽视了超感知所需的更高级的空间和时间推理能力(第2.1节)。为了填补这一关键空白,我们随后引入了VSI-SUPER,这是一个专门设计用于探测这些更难的、持续的空间智能方面的新型基准测试(第2.2节)。我们将使用这个基准测试来测试当前MLLM范式在本文其余部分的极限。

2.1. 解构现有的视频基准测试
最近MLLM的发展引发了视频问答(QA)基准测试的激增。然而,一个关键问题仍然存在:现有的视频基准测试在多大程度上真正检验了视觉感知能力,而不是仅仅测试语言先验?我们的诊断测试通过改变视觉输入的丰富性和文本提示的信息量,将模型对视觉感知的依赖与语言先验的依赖区分开来。可以通过仅依赖文本输入(例如,字幕或盲MLLM)解决的基准测试倾向于检验语言理解。相比之下,只有通过多帧输入才能回答的基准测试问题才真正需要视觉感知。我们使用基于图像的多模态大语言模型Cambrian-1[124]进行评估,这使我们能够在不将任务需求与特定于视频的架构和后训练能力混淆的情况下,探究底层任务需求。
我们为Cambrian-1[124]模型建立了几种实验条件,用于处理视频输入:
-
多帧输入:模型处理从视频剪辑中均匀采样的32帧。这是文献中表示视频输入的标准方法[65]。
-
单帧输入:模型仅处理给定视频剪辑的中间帧。这种条件测试对上下文中心的最小视觉信息的依赖。
-
帧字幕:代替视频帧,模型接收与相同的32个均匀采样帧对应的字幕。这种条件旨在揭示在没有低级感知基础的情况下,任务的可解性有多高。我们使用Gemini-2.0-Flash API重新为视频帧生成字幕。
为了对这些条件下的性能进行上下文化,我们引入了两个其他基线:
-
盲测试:模型仅使用任务的问题尝试完成任务。所有视觉输入都被忽略,不使用视觉字幕。这个基线衡量模型基于其先验知识、语言先验以及基准测试问题中可能存在的任何潜在偏见的性能。
-
随机准确率:这代表了针对特定任务格式(例如,多项选择题)随机猜测可实现的准确率,作为性能的下限。
我们在图2(a-c)中展示了这些条件下的绝对准确率,并在图2(d-j)中展示了不同条件之间的性能差异。我们关注以下关键比较(diff(A,B)=A−B):
-
diff(x,Blind),x∈{Multiple, Single, Captions},以量化不同输入模态相对于盲基线的提升;
-
diff(x,Chance),x∈{Multiple, Single, Captions},以衡量相对于随机猜测的性能提升;
-
diff(Multiple,Captions),以了解当前主流实践与强大的语言基线之间的性能差距。
图2(a-c)的结果表明,Cambrian-1[124]------一个未经视频后训练的基于图像的MLLM------在许多基准测试中都能取得合理的性能,在某些情况下甚至超过了随机准确率10-30%(见图2-g,h)。这表明,这些基准测试所针对的大部分知识可以通过标准的单图像指令调优流程获得。然而,在两个现有的数据集VSI-Bench[148]和Tomato[116]上,模型的性能低于随机准确率。对于VSI-Bench,这主要是因为它需要真正的视频感知和针对性的数据策划与训练。对于Tomato,这种表现不佳是意料之中的:该基准测试要求理解高帧率视频中的细微细节,使得主要通过时间下采样的单帧和32帧输入显得不足。
用文本字幕代替视觉输入也能显著提升性能,在某些基准测试中甚至超过了随机准确率20%以上,例如EgoSchema[87]、VideoMME[42]、LongVideoBench[140]、VideoMMMU[53]、Perception Test[103]和MVBench[71](见图2-i)。从比较基准测试性能与盲测试结果(图2-d,f)中可以得出类似的结论。这种表现表明,这些基准测试主要探测从视频内容的文本总结中可推断出的能力。比较使用"多帧"和"帧字幕"(图2-j)的性能差异,显著的正向差异(有利于多帧输入)表明基准测试对视觉感知的需求;相反,小的或负的差异(更倾向于"帧字幕")表明基准测试更倾向于语言中心。我们的分析将VideoMMMU、EgoSchema、VideoMME、Perception Test和LongVideoBench归入后一类,表明它们可能依赖于语言理解而非视觉线索。一个显著的例外是VSC,由于对当前MLLM来说太具挑战性,所有三种输入条件的性能都接近于零,从而无法在它们之间进行有意义的比较。
现有的基准测试压倒性地集中在语言理解和语义感知上,而忽视了超感知所需的更高级的空间和时间推理能力。
我们希望强调基准测试的固有挑战以及创建一个涵盖所有能力的单一、全面基准测试的不切实际性。例如,对语言先验的依赖不应仅仅被视为缺点,因为能够访问丰富的世界知识并有效地检索它们无疑在许多情况下是有益的。我们认为,视频基准测试不应被视为衡量单一、统一的"视频理解"概念。相反,它们的设计和评估应基于它们旨在评估的具体能力。因此,前面的分析旨在指导开发更有效地推动空间超感知发展的任务,这将是本文其余部分的中心重点。

2.2. VSI-SUPER:迈向多模态LLM中的空间超感知基准测试
参考图1,空间超感知要求MLLM具备四个关键能力:语义感知、连续事件认知、隐式三维空间认知和预测性世界建模。然而,正如我们在图2中的分析所概述的那样,大多数现有的视频问答基准测试主要评估语言理解和语义感知方面,这些方面更具反应性且由特定任务驱动[42,87,53]。虽然最近的研究已经开始通过持续感知、记忆架构和主动回答来解决连续事件认知问题[24,104,97,139,119,159],但这种能力通常是在测试时设计的,而不是模型的原生技能。此外,尽管空间推理偶尔会作为现有基准测试的一个类别出现,但这些任务很少达到真正的空间认知水平,并且远未探测到定义超感知的世界建模能力(图3)。尽管VSI-Bench[148]迈出了初步探索空间认知的一步,但其视频仍然是短形式和单场景的,它既没有正式化问题,也没有评估预测性世界建模这一基本能力。
为了阐明当前MLLM与空间超感知之间的差距,我们引入了VSI-SUPER,这是一个包含两部分的用于持续空间感知的基准测试。这些任务直观且对人类来说通常很容易,人们只需观看并跟踪发生了什么,但它们对机器来说仍然出人意料地具有挑战性。它们要求在无界的空间视频中选择性地过滤和结构化积累视觉信息,以维持连贯的理解并回答问题。重要的是,它们对暴力穷举上下文扩展具有抵抗力,暴露了对真正空间推理的需求。我们在下面详细介绍了这两个组成部分。

VSI-SUPER 回忆(VSR):长期空间观察与回忆
VSR基准测试要求MLLM观察长期时空视频,并依次回忆一个不寻常物体的位置。如图4所示,为了构建这个基准测试,人类标注者使用图像编辑模型(例如,Gemini[30])将令人惊讶的或不合时宜的物体(例如,泰迪熊)插入到一个室内环境巡视视频的四个不同帧(以及空间位置)中。然后将这个编辑过的视频与其他类似的房间巡视视频拼接在一起,创建一个任意长度且连续的视觉流。这项任务类似于语言领域中用于压力测试长上下文能力的"大海捞针"(NIAH)测试[79]。类似的NIAH设置也已提出用于长视频评估[162,138,54]。然而,与插入不相关文本段落或帧的基准测试不同,VSR通过在帧内编辑保留了"针"的真实性。它进一步通过要求顺序回忆来扩展挑战,实际上是一个多跳推理任务,并且在视频长度上可以任意扩展。为了彻底评估模型在不同时间尺度上的性能,基准测试提供了五种持续时间:10、30、60、120和240分钟。关于VSR基准测试构建的更多细节在附录B.1中提供。
VSI-SUPER 计数(VSC):在变化的视角和场景下持续计数
在这里,我们测试MLLM在长期空间视频中持续积累信息的能力。为了构建VSC,我们将多个VSI-Bench[148]的房间巡视视频片段拼接在一起,并要求模型对所有房间中的目标对象进行计数(见图5)。这种设置具有挑战性,因为模型必须处理视角变化、重复出现以及场景转换,同时保持一致的累积计数。对于人类来说,计数是一个直观且可泛化的过程。一旦理解了"一"的概念,将其扩展到更大的数量是很自然的。相比之下,正如我们稍后展示的那样,当前的MLLM缺乏真正空间认知能力,过度依赖于学习到的统计规律。
除了标准评估(即在视频结束时提问)外,我们还在多个时间戳处询问模型,以评估其在流式设置中的性能,其中VSC中的正确答案会随着时间动态变化。为了检验长期一致性,VSC包括四种视频持续时间:10、30、60和120分钟。对于这个定量任务,我们使用平均相对准确率(MRA)指标报告结果,这与VSI-Bench评估协议一致。
VSI-SUPER 实验结果:当前模型的局限性
前沿MLLM在VSI-SUPER上的表现有限。 为了测试VSI-SUPER是否真正对前沿MLLM构成挑战,我们评估了最新的Gemini-2.5-Flash[122]模型。如表1所示,尽管该模型具有长达1,048,576个token的上下文长度,但在处理两小时视频时仍达到其上下文极限。这突显了视频理解的开放性,其中连续流实际上需要"无限输入,无限输出"的上下文,并且可以任意扩展,表明仅仅扩大token、上下文长度或模型规模可能并不足够。尽管合成的,但我们的基准测试反映了空间超感知的一个真实挑战:人类可以轻松地整合和保留从持续数小时甚至数年的感官体验中获得的信息,但当前模型缺乏类似的持续感知和记忆机制。Gemini-2.5-Flash在以语义感知和语言理解为重点的视频基准测试(如VideoMME[42]和VideoMMMU[53])上表现出色,准确率约为80%。然而,即使对于60分钟的VSI-SUPER视频(这些视频完全在模型的上下文窗口内),VSR和VSC的性能仍然有限------分别为41.5和10.9。如图6所示,模型预测的对象计数未能随着视频长度或真实对象数量的增加而扩展,而是饱和在一个较小的常数值,表明计数能力缺乏泛化,并且依赖于训练分布。
VSI-SUPER如何挑战当前范式。 尽管任务设置简单,但VSI-SUPER带来的挑战超出了空间推理本身,揭示了当前MLLM范式的根本局限性。通过允许任意长度的视频输入,模拟流式认知的动态性,VSI-SUPER被有意设计为超出任何固定的上下文窗口。这种设计表明,逐帧标记和处理不太可能作为长期解决方案在计算上具有可行性。人类通过选择性地关注和保留仅一小部分感官输入来高效且自适应地解决这类问题,通常是在无意识的情况下[40,130]。这种预测性和选择性机制是人类认知的核心,但目前在MLLM中缺失,是预测性世界建模的基本要素。

VSI-SUPER任务要求在测试时对新的时间和空间尺度进行泛化。 例如,VSC要求在任意长度的视频中进行计数,类似于人类在理解"计数"概念后能够将其扩展到任何数字。关键不在于维持极长的上下文窗口------人类并不会在长时间的视觉体验中保留每一个视觉细节,而在于学习计数的过程本身。预测性感知通过将连续视觉流分割成连贯的事件来实现这一点,利用"惊喜"时刻来施加时间结构。这种分割作为一种分而治之的机制,允许模型决定何时开始、继续或重置行为以应对动态变化的环境。

总之,这些挑战------涉及计算效率、泛化能力以及像无意识推断和预测性感知这样的认知机制------呼吁范式转变。未来模型不应仅仅依赖于数据、参数或上下文长度的扩展,而应学习构建内部世界模型,以感知和预测在无尽展开的视觉世界中跨越空间和时间的信息。
3. 当前范式下的空间感知
在前一节中,Gemini-2.5-Flash 在空间感知任务上的表现欠佳(见表1)。这一现象引发了关键问题:有限的空间感知是否仅仅是数据问题?是否存在一种数据集,能够通过更精细的设计和训练,推动模型在空间认知上取得突破?为了回答这些问题,我们首先通过一系列架构和训练改进,开发了一个基于图像的多模态语言模型(MLLM),作为强大的基础模型(第3.1节)。随后,我们策划了一个大规模的空间视频指令调优数据集 VSI-590K(第3.2节)。该数据集从多种来源精心策划并标注,旨在为空间感知提供坚实的数据基础。最后,通过优化的训练配方(第3.3节),我们引入了 Cambrian-S 模型系列。
Cambrian-S 模型系列在 VSI-Bench 等基准测试中表现出色,为空间认知树立了新的标杆。然而,尽管在空间认知方面取得了显著进步,但这些模型在 VSI-SUPER 任务上的表现仍然有限,表明仅靠数据规模和训练强度是不足以实现空间超感知的。这一发现为探索新的范式奠定了基础,推动我们寻找更有效的空间感知方法。
3.1. 基础模型训练:升级版 Cambrian-1
我们从开发一个基于图像的多模态语言模型(MLLM)基础模型开始,因为强大的语义感知能力是更高层次空间认知的基础。我们遵循 Cambrian-1 的两阶段训练流程,并对其进行了升级。我们将视觉编码器升级为 SigLIP2-SO400m,语言模型升级为指令调优的 Qwen2.5。对于视觉与语言的连接器,我们采用了简单的两层 MLP,主要考虑其计算效率。其他训练组件(包括超参数和数据配方)保持与 Cambrian-1 一致。完整的实现细节请参阅附录 D。
3.2. 空间视频数据策划:VSI-590K
数据质量和多样性在 MLLM 的训练中起着关键作用。我们假设 VSI-Bench 上的性能差距主要源于当前指令调优数据集中缺乏高质量的空间数据。为了填补这一空白,我们构建了 VSI-590K,这是一个大规模的指令调优数据集,旨在提升视觉空间智能。

数据策划与处理

我们从多种数据源(包括模拟和真实视频)构建 VSI-590K,涵盖了不同的视频类型和标注方式(见表2)。我们发现,这种多样化的数据组合比单一来源的数据集更具鲁棒性。以下是详细的数据处理流程:
-
标注真实视频:多模态视觉空间推理依赖于对三维几何和空间关系的坚实理解。我们重新利用了现有的室内扫描和第一人称视频数据集(如 S3DIS、ScanNet、ScanNet++、ARKitScenes 和 ADT),这些数据集提供了 3D 实例级标注。对于每个数据集,我们将标注信息整合到一个元信息文件中,该文件捕获了场景级属性,如按类别统计的对象数量、对象边界框、房间尺寸及相关元数据。然后,我们使用预定义的模板自动实例化问题。
-
模拟数据:由于 3D 标注数据有限,仅从真实标注视频构建大规模且多样化的 3D 标注 SFT 数据集具有挑战性。我们遵循 SIMSV 的方法,利用具身模拟器程序化生成空间化的视频轨迹和 QA 对。我们在 ProcTHOR 场景中渲染了 625 个视频遍历,并从 461 个室内场景中采样了 5,113 张图像。我们使用实例级边界框生成与我们标注真实视频设置一致的 QA 对。
-
未标注真实视频:尽管网络来源的视频缺乏明确的标注,但它们提供了丰富的室内环境类型、地理区域和空间布局的多样性。我们收集了大约 19,000 个来自 YouTube 的房间巡视视频,并额外纳入了机器人学习数据集(如 Open-X-Embodiment 和 AgiBot-World)中的视频。由于这些视频不包含 3D 标注,我们开发了一个伪标注流程。如图 7 所示,我们对视频帧进行抽样和过滤,应用目标检测、分割模型 和 3D 重建模型,生成伪标注图像,遵循 SpatialVLM 的方法。我们选择在图像级别而不是完整视频级别生成标注,因为从识别和重建模型中派生的完整视频伪标注往往过于嘈杂。
问题类型定义与模板增强
我们定义了 12 种问题类型,构建了一个全面且多样化的 QA 对集合,用于指令调优。我们定义了五种主要问题类型------尺寸、方向、计数、距离和出现顺序------这些类型大致分为测量配置、测量或时空能力。除了出现顺序类型外,每个问题类别都包括相对和绝对变体,反映了视觉空间理解中这两种互补推理形式的重要性。例如,对于尺寸,我们询问两个对象之间的尺寸比较(相对)以及对象的度量尺寸(绝对)。为了增强多样性,我们通过变化问题措辞和测量单位(例如,米与英尺)来多样化数据集。数据集的更多细节请参阅附录 C。
VSI-590K 数据源消融研究
为了评估我们提出的 VSI-590K 数据集的有效性,我们通过在部分视频指令调优样本上微调改进版的 Cambrian-1 MLLM(如第3.1节所述),进行了消融研究。该模型作为表3中的基线。通过在各个数据集及其组合上微调模型,评估每个数据源的贡献。VSI-590K Full Mix 在视频空间推理任务上实现了最佳的整体性能,优于基线和所有单一来源的对手。所有数据源在微调后都对性能有积极贡献,尽管它们的有效性存在差异。

数据有效性排名:标注真实视频 > 模拟数据 > 伪标注图像。这表明视频比静态图像更具信息量,仅在视频数据上进行训练就能在视频和基于图像的空间推理基准测试上实现卓越性能。这些发现支持了视频的时间连续性和多视角多样性是发展稳健空间认知的关键的观点。
3.3. 空间感知的后训练配方
我们进一步分析和消融了我们的视频指令调优流程,重点关注预训练基础视频模型和指令调优数据集混合的作用。如表4所示,我们从四个基础模型开始,这些模型在视频理解能力上逐步增强:
-
A1:仅使用图像-文本对齐在 Cambrian-1 对齐数据上进行训练。语言模型与基础 QwenLM 相同,训练期间保持冻结。
-
A2:在 A1 的基础上,使用图像指令调优,本质上是我们的改进版 Cambrian-1。
-
A3:从 A2 初始化,并在 429k 视频指令调优数据上进行微调。
-
A4:从 A2 初始化,并在 3M 视频指令调优数据上进行微调。
然后,我们使用两种不同的数据配方对这些模型进行微调:(1)仅使用 VSI-590K,(2)将 VSI-590K 与等量的一般视频指令调优数据混合。
如表4所示,从 A1 到 A4,模型在视频理解能力上单调提升。使用更强的基础模型(在一般视频基准测试如 VideoMME 和 EgoSchema 上表现良好)进行空间感知调优后,性能得到增强。这突显了在基础模型训练期间广泛接触一般视频数据的重要性。

混合一般视频数据可以防止因领域内调优而导致的泛化能力下降。此外,尽管仅在 VSI-590K 上进行领域内调优可以实现 VSI-Bench 上的最高性能,但这会导致一般视频基准测试上的性能显著下降。然而,这种性能下降可以通过在包含一般视频数据的混合数据上训练来有效缓解。
3.4. Cambrian-S:空间化的 MLLM
基于前面的所有见解,我们开发了 Cambrian-S,这是一个包含不同 LLM 规模(0.5B、1.5B、3B 和 7B 参数)的空间化模型系列。这些模型通过一个四阶段训练流程构建,旨在首先建立通用的语义感知能力,然后发展专门的空间感知技能,如图8所示。
前两个阶段遵循 Cambrian-1 框架,以发展强大的图像理解能力。在第3阶段,我们通过在 CambrianS-3M(一个包含 300 万样本的策划数据集,见详细组成图16)上进行一般视频指令调优,将模型扩展到视频。这一阶段为引入专门技能之前建立了一般视频理解的坚实基础。在至关重要的第4阶段,模型在空间感知方面进行了微调。在这里,我们在第3阶段使用的通用视频数据的成比例子集与我们的专门 VSI-590K 混合,按照第4节中描述的设置进行微调。完整的训练细节请参阅附录 D。
Cambrian-S 训练流程
图8展示了 Cambrian-S 的整体训练流程。阶段1和2增强了图像理解能力,阶段3提升了通用视频理解能力,阶段4则加强了空间感知能力。

3.5. 实验结果:改进的空间认知
接下来,我们评估 Cambrian-S 多模态模型,以评估我们数据驱动方法的优势和局限性。
改进的空间认知
如表5所示,我们的模型在视频空间理解方面实现了最先进的性能。Cambrian-S-7B 在 VSI-Bench 上达到了 67.5%,显著优于所有开源模型,并且比专有的 Gemini-2.5-Pro 高出超过 16 个百分点。由于我们在这部分的工作可以被视为数据扩展努力,一个自然的问题是:性能提升是否仅仅是因为更广泛的数据覆盖(包括更多样化的视觉配置和 QA 对),还是模型实际上发展出了更强的空间认知能力?首先,我们强调 VSI-590K 和基准测试数据集之间没有数据重叠。尽管一些数据集来自相同的来源(例如 ScanNet),但我们只使用训练集,而基准测试使用验证集和测试集。此外,我们观察到模型在空间推理方面表现出明显的泛化能力。例如,在具有挑战性的"路径规划"子任务中,由于高标注成本,VSI-590K 中没有这种问题类型,但 Cambrian-S-7B 仍然表现出色,随着模型规模的增加也显示出明显的扩展行为(见图)。

此外,我们的训练方法即使在较小的模型规模下也证明非常有效:我们的最小 0.5B 模型在 VSI-Bench 上的性能与 Gemini-1.5Pro 相当。重要的是,这种对空间推理的强调并没有以牺牲通用能力为代价:Cambrian-S 在标准视频基准测试(如感知测试和 EgoSchema)上仍然具有竞争力(见表14以获取完整结果)。
Cambrian-S 在空间感知方面实现了最先进的性能,具有对未见空间问题类型的强大泛化能力,同时在通用视频理解方面保持竞争力。
在 VSI-Bench-Debiased 上的稳健空间推理
最近的一项研究揭示了模型可以依赖强大的语言先验来执行空间推理任务。例如,当被要求估计桌子的长度时,模型可能会利用关于典型桌子尺寸(例如,120-180 厘米)的自然世界知识,而不是分析视觉证据。为了调查 Cambrian-S 是否学习了视觉推理,我们在 VSI-Bench-Debiased上对其进行了评估,这是一个专门设计的基准测试,通过去偏见消除语言捷径。如表5所示,尽管与标准 VSI-Bench 相比性能下降了约 8%,但我们的模型仍然优于专有对手,展示了稳健的视觉空间推理能力,并确认了我们的训练超越了基于语言的推理。
在 VSI-SUPER 上的结果:持续空间感知的局限性
尽管在 VSI-Bench 的短时、预分割视频上的空间推理任务表现出色,但 Cambrian-S 并未为持续空间感知做好准备。这一局限性以两种方式表现出来。首先,其在长视频上的性能显著下降。如表7所示,当在流式设置中以 1FPS 采样率评估 VSI-SUPER 时,随着视频长度从 10 分钟增加到 60 分钟,准确率从 38.3% 下降到 6.0%,并且模型在超过 60 分钟的视频上完全失败。其次,模型难以泛化到新的测试场景。尽管它在多房间房屋巡视视频上进行了训练,但它无法处理只有几个额外房间的未见示例。这个问题不仅仅是上下文长度的问题:即使在完全适合模型上下文窗口的 10 分钟短视频上,性能也会下降。这些结果表明,仅在当前 MLLM 框架内进行数据驱动的方法,无论投入多少数据或工程努力,都面临着根本性的限制。解决这些限制需要范式转变,未来的 AI 系统应该能够积极建模和预测世界,同时更高效地组织经验,这是我们将在下一节中探讨的内容。

4. 预测性感知作为新范式
Gemini-2.5-Flash(表1)和Cambrian-S(表7)在VSI-SUPER上的表现急剧下降,揭示了一个根本性的范式差距:仅靠数据扩展和上下文扩展是不足以实现超感知的。我们提出预测性感知作为前进的方向,让模型学会预测其感官输入,并构建内部世界模型以处理无界视觉流。这一设计灵感来源于人类认知理论。与当前的视频多模态模型(它们将整个数据流标记化并逐帧处理)不同,人类感知(和记忆)高度选择性,仅保留一小部分感官输入。大脑不断更新内部模型以预测即将到来的刺激,压缩或丢弃那些不提供新信息的可预测输入。相比之下,违反预测的意外感官信息会引发"惊喜",并驱动注意力增加和记忆编码。我们通过自监督的下一潜在帧预测方法来原型化这一概念(第4.1节)。由此产生的预测误差作为控制信号,用于两个关键能力:通过选择性保留重要信息进行记忆管理(第4.2节),以及将无界流分割成有意义的块进行事件分割(第4.3节)。我们通过在VSI-SUPER上的两个案例研究展示了这种方法显著优于强大的长上下文和流式视频模型。
4.1. 通过潜在帧预测实现预测性感知
我们通过一个轻量级的自监督模块------潜在帧预测(LFP)头------来实现预测性感知范式,该模块与主要的指令调优目标联合训练。这是通过修改第4阶段的训练配方来实现的:
-
潜在帧预测头:我们引入了一个LFP头,这是一个两层MLP,与语言头并行运行,用于预测下一视频帧的潜在表示。该架构如图9左上角所示。
-
学习目标:为了优化LFP头,我们引入了两个辅助损失函数:均方误差(MSE)和余弦距离,用于衡量预测的潜在特征与下一帧实际潜在特征之间的差异。一个权重系数平衡了LFP损失与主要指令调优的下一个token预测目标。
-
LFP训练数据:我们为第4阶段的数据增加了290k视频子集,专门用于LFP目标。与指令调优不同,这些视频以恒定的1FPS速率采样,以确保潜在帧之间的时间间隔均匀。
在修改后的第4阶段微调期间,我们联合端到端地训练连接器、语言模型以及语言和LFP头,同时保持SigLIP视觉编码器冻结。所有其他训练设置与原始第4阶段配置一致。为简洁起见,我们在后续内容中仍将联合优化LFP目标的模型称为Cambrian-S。
推理:通过预测误差估计"惊喜"。在推理过程中,我们利用训练好的LFP头来评估每个传入视觉感官输入的"惊喜"程度。在心理学中,这种框架通常被描述为"预期违反"(VoE)范式。具体来说,在推理过程中,视频帧以恒定采样率输入Cambrian-S。除非另有说明,以下实验中的视频在输入模型之前均以1FPS采样。当模型接收传入的视频帧时,它会持续预测下一帧的潜在特征。然后,我们测量模型预测与传入帧的实际潜在特征之间的余弦距离。这个距离作为"惊喜"的量化度量:较大的值表示与模型学习预期的更大偏差。这个惊喜分数作为一个强大的自监督引导信号,用于后续任务。

4.2. 案例研究 I:基于惊喜驱动的记忆管理系统用于 VSI-SUPER 回忆
大多数当前的 MLLM 将所有视频帧视为同等重要,存储每一帧而不进行选择性压缩或遗忘,这限制了效率和可扩展性。在本案例研究中,我们探索为 MLLM 增强一个基于惊喜驱动的记忆管理系统,以支持长时视频上的持续空间感知问答。我们展示了通过惊喜引导的压缩,Cambrian-S 能够在视频长度增加时保持一致的准确率和稳定的 GPU 内存占用。
基于惊喜的记忆管理系统
我们的记忆管理系统基于对"惊喜"的估计动态压缩和整合视觉流。如图 10(a) 所示,我们使用固定窗口大小的滑动窗口注意力对传入帧进行编码。潜在帧预测模块随后测量"惊喜水平"并将其分配给每个帧的 KV 缓存。低于预定义阈值的惊喜水平的帧会在被推入长期记忆之前进行 2× 压缩。为了维持稳定的 GPU 内存占用,这个长期记忆被限制为固定大小,通过一个基于惊喜的整合函数来操作:根据惊喜分数丢弃或合并帧(见图 10(b))。最后,在接收到用户查询时,系统通过计算查询与存储帧特征之间的余弦相似度来检索最相关的前 K 个帧(见图 10(c))。更多设计细节请参阅附录 F.2。尽管之前的研究探索了长视频的记忆系统设计,我们的重点是探索预测误差(即惊喜)作为指导被动感知的方式------无需假设对未来查询的任何先验知识。
实验结果
我们将 Cambrian-S 与带有和不带有基于惊喜的记忆系统进行比较,对抗两个先进的专有模型:Gemini-1.5-Flash 和 Gemini-2.5-Flash,在 VSR 基准测试上。如图 11(a) 所示,带有记忆系统的 Cambrian-S 在所有视频长度上均优于 Gemini-1.5-Flash 和没有记忆系统的 Cambrian-S,展示了在不同视频时长下一致的空间感知性能。尽管 Gemini-2.5-Flash 在一小时以内的视频上表现出色,但它无法处理更长的输入。此外,带有记忆系统的 Cambrian-S 还在不同视频长度上保持了稳定的 GPU 内存使用(见图 11(b))。这表明基于惊喜的记忆系统有效地压缩了冗余数据,而没有丢失关键信息。我们在附录中包含了两个长视频基线 MovieChat 和 Flash-VStream 以供比较。

惊喜测量的消融研究
我们基于记忆系统的核心是惊喜测量机制,它决定了帧如何在被动感知方式下被压缩或整合------不假设对未来查询的任何先验知识。在这里,我们将我们的设计(预测误差作为惊喜)与另一个简单的基线进行比较:相邻帧视觉特征相似度。具体来说,我们使用 SigLIP2 作为视觉编码器,并直接比较两个相邻帧之间的帧特征差异(余弦距离)。如果差异超过阈值,我们将后续帧视为惊喜帧。我们在所有 VSR 变体上对这两种方法进行了比较。对于每个 VSR 时长,我们保持实验设置相同,除了惊喜阈值,我们为两种方法都进行了调整。如图 11(c) 所示,使用预测误差作为惊喜测量的方法在不同视频时长上一致优于相邻帧相似度。
预测性感知提供了一种比基于每帧静态相似度测量更合理的方法来建模视频数据的时空动态。 尽管我们当前的系统使用了一个简单的预测头作为初步原型,但未来将更强大的世界模型整合进来可能会产生更丰富、更可靠的惊喜信号,最终推动空间超感知的更广泛发展。
4.3. 案例研究 II:基于惊喜驱动的持续视频分割用于 VSI-SUPER
尽管 VSR 关注于评估 MLLM 的长期观察和回忆能力,但更具有挑战性的超感知测试将涉及测试模型解读其感官输入、在不同环境中导航以及执行累积性、多跳推理的能力。例如,模型可能需要在一个环境中完成一项任务,移动到另一个环境,并最终整合所有经验中的信息以得出最终答案。

基于惊喜的事件分割
事件可以被理解为时空连贯的体验片段。在空间超感知的语境中,事件对应于在特定空间内感知其环境的连续体验。这一定义强调,真实的感官体验通常被组织成局部连贯的片段------在这些片段中,感知、空间和时间特征相对稳定或一致。事件分割,因此,是将连续的感官输入流解析成离散、有意义的单元的过程,基于这种连贯性的变化。这种分割对于推理和行为是至关重要的:它允许代理(无论是生物还是人工)构建经验的结构化表征,检测重大变化发生的地方,并相应地更新对环境的预测。最近的研究强调,预测误差和工作记忆 / 上下文的变化是驱动分割的两种可能机制。

在 VSI-SUPER 计数(VSC)基准测试中,我们考察了一个简单的设置,其中惊喜被用于分割连续的视觉输入,将场景变化作为自然的分隔点,将视频流分割成空间连贯的片段。这种方法也与人类解决问题的方式相似:当在大范围内计数对象时,人们通常会先专注于一个部分,然后再将结果汇总。这种行为也与"过门效应"有关,即穿过一扇门或进入一个新房间会在记忆中创建一个自然的边界。如图 12 所示,模型持续在事件缓冲区中积累帧特征。当检测到高惊喜帧时,缓冲区中的特征被总结以产生一个片段级别的答案,然后清除缓冲区以开始一个新的片段。这个循环重复进行,直到视频结束,之后将所有片段答案汇总以形成最终输出。颜色阴影(深色→浅色)反映了惊喜的程度,带有斜纹的方框表示压缩后的帧,而实心方框表示未压缩的帧。
实验结果
Gemini-1.5-Flash 在 VSC 上的准确率接近零(见图 13(a)),显示出该任务的难度。尽管 Gemini-2.5-Flash 在 10 分钟的视频上取得了较好的结果,但其性能随着视频长度的增加而迅速下降。相比之下,Cambrian-S(带有惊喜驱动的事件分割)在所有视频长度上均实现了更高且更稳定的性能。当使用真实场景转换(即,Cambrian-S 带有真实分割)对视频进行分割时,性能进一步提高,这代表了一个大致的上限。对 Gemini-2.5-Flash 的更深入分析揭示了其预测结果被限制在一个有限范围内,并且随着视频中出现更多对象,其预测结果并没有增加(见图 14)。相比之下,Cambrian-S(带有惊喜分割)产生的计数与真实对象数量的关联更强,尽管尚未完全准确,但其预测结果大致与 y=x 的完美计数线(灰色虚线)成比例增长,而 Gemini-2.5-Flash 的预测结果则聚集在较小值附近,并且未能随着真实计数的增加而增加,表明其早期饱和且对较大值的外推能力较差。
惊喜测量的消融研究
我们比较了我们的惊喜驱动方法与使用相邻帧特征相似度的基线(见图 13(b))。对于这两种方法,我们报告了在经过超参数调整后的最佳结果。与我们在 VSR 中的观察一致,使用预测误差作为惊喜测量的方法在所有视频时长上均显著优于外观相似度。
流式设置中的评估
由于 VSC 中的正确答案会随着视频的进行而变化,我们创建了一个流式 QA 设置,在该设置中,相同的提问会在 10 个不同的时间戳处重复提出。最终性能是通过对所有查询的平均值来计算的。我们针对被宣传为支持实时视觉输入的商业 MLLM 进行了基准测试。如图 13(c) 所示,尽管 Gemini-Live 和 GPT-Realtime 被设计用于流式场景,但它们在 10 分钟的视频上准确率不到 15%,并且在 120 分钟的流式视频上性能下降至接近零,而我们的方法则保持了较高的性能,在 10 分钟的流式视频上达到了 38% 的平均相对准确率(MRA),并且在 120 分钟时仍保持在约 28%。
总结
在 VSR 回忆和 VSC 计数任务中,通过惊喜驱动的记忆和事件分割实现的预测性感知使 Cambrian-S 能够克服第 3 节中描述的固定上下文限制。尽管这仍然是一个早期原型,但它突显了构建不仅能够"看",而且能够主动预测、选择和组织经验的 AI 系统的潜力。这样的系统超越了基于帧的问答,朝着构建支持更深层次空间推理、跨越无界时间范围的隐式世界模型的方向发展,最终实现能够与人类视觉智能相媲美甚至超越人类视觉智能的超感知。
5. 相关工作
视频多模态大语言模型(MLLM):预训练语言模型(LLM)的强大语言理解能力,结合用作特征提取器的视觉基础模型,推动了这些模型从文本领域向语义感知视觉内容的扩展,主要在图像领域。这种势头激发了对视频基础 MLLM 的研究,被视为将多模态智能与现实世界应用(如具身智能体)连接起来的关键一步。正如本文所强调的,开发真正具备超感知能力的系统需要重新思考几个核心方面,包括如何衡量进步、什么样的数据最有效、哪种架构设计最有效,以及什么样的建模目标最符合系统的空间超感知目标。
流式视频理解:视频是一种连续且可能无限的视觉信号流。尽管人类能够轻松处理,但其无界特性对视频 MLLM 构成了挑战,因为随着时长增加,token 长度也会增加,导致计算和存储成本上升。最近的研究探索了几种解决这一问题的方法:高效的架构设计。自注意力的二次成本使得处理长视频变得困难。最近的方法采用了更简单、更快速的架构,以减少计算量并更好地处理更长的输入。上下文窗口扩展。预训练 LLM 中固定的上下文长度限制了其对长期内容的理解。最近的研究通过精心设计的系统扩展了这一窗口,使模型能够处理和推理更长的视频序列。检索增强型视频理解。为了处理长视频,一些方法从更大的集合中检索最相关的片段,并将它们用作进一步分析的上下文。视觉 token 减少或压缩。其他方法通过减少帧内或帧间的视觉 token 来缩短输入,使处理长视频序列变得更容易。尽管这些方法提高了性能,但它们大多将连续视频视为标准序列建模问题,类似于文本。我们认为未来的 MLLM 应该构建内部预测模型,以高效地处理连续视觉流,正如人类所做的那样。
视觉空间智能:从视觉输入中理解空间关系对于感知和与物理世界互动至关重要。随着多模态模型越来越具身化,对空间智能的兴趣激增,导致了新的基准测试和专注于增强模型空间推理能力的研究。在本文中,我们通过空间超感知的概念来研究视频中的视觉空间智能,并探索通过细化数据策划、优化训练策略和引入新的建模目标来增强 MLLM 的空间推理能力。
预测性建模:学习的内部预测模型允许智能代理表示并模拟其环境的某些方面,从而实现更有效的规划和决策。模型预测控制(MPC)在控制理论中应用了类似的原则,利用内部前馈模型来预测未来的轨迹,并实时选择最优动作。这一概念受到人类形成世界心理模型的启发,以及这些内部表征如何影响行为(例如,无意识推断),作为现实的简化抽象,使预测和高效行动成为可能。越来越多的研究探索了通过自监督表示学习和基于文本或动作的视频生成来实现预测性建模。在本文中,受人类利用内部世界模型高效且有效地处理无界感官输入的启发,我们探索了如何为 MLLM 赋予类似的预测性感知能力。
6. 结论
我们强调了视频中空间超感知能力的重要性,并提出了一个空间超感知能力的层次结构,认为实现超级智能需要 AI 系统从当前大多数 MLLM 所关注的基于文本的知识和语义感知,转向发展空间认知和预测性世界建模。为了衡量进步,我们引入了 VSI-SUPER,并发现当前 MLLM 在此基准测试上表现不佳。为了测试当前进步是否受到数据限制,我们策划了 VSI-590K,并在上面训练了我们的空间化 MLLM,Cambrian-S。尽管 Cambrian-S 在标准基准测试上表现出色,但其在 VSI-SUPER 上的结果揭示了当前 MLLM 范式的局限性。我们通过潜在帧预测和惊喜估计为 Cambrian-S 原型化了预测性感知,使其在 VSI-SUPER 上的性能得到提升,标志着迈向空间超感知的早期一步。
局限性:我们的目标是提出一个概念框架,鼓励社区重新考虑发展空间超感知的重要性。作为一个长期研究方向,我们当前的基准测试、数据集和模型设计在质量、规模和泛化能力方面仍然有限,而原型仅作为一个概念验证。未来的工作应该探索更多样化和具身化的场景,并与视觉、语言和世界建模的最新进展建立更强的联系。