多模态大语言模型(MLLM)作为多功能 AI 助手,在处理各类视觉任务方面取得了巨大进步。然而,它们作为独立数字实体部署,限制了其潜在影响。随着将 MLLM 整合到像机器人技术和自动驾驶汽车这类现实应用中的需求不断增长,这些应用需要复杂的空间理解能力。当前的 MLLM 存在基本的空间推理缺陷,常常连左右区分这类基础任务都难以完成。以往研究将这些局限归因于缺乏专门的训练数据,并通过在训练期间纳入空间数据来解决,但这些方法侧重于单图像场景,从而使模型的感知局限于静态视场分析,缺少动态信息。

许多研究方法试图解决 MLLM 在空间理解方面的局限。MLLM 配备可将视觉输入转化为与文本一并在语言模型潜在空间中处理的图像编码器。以往研究聚焦于单图像空间理解,评估物体间空间关系或空间识别。像 BLINK、UniQA - 3D 和 VSIBench 这些基准测试扩展到单图像之外。现有提升 MLLM 空间理解能力的改进包括:SpatialVLM 通过在精选空间数据集上微调模型;SpatialRGPT 纳入基于掩码的引用和深度图像;SpatialPIN 则利用专门的感知模型而无需微调。
FAIR Meta 和香港中文大学的研究人员提出了一种增强 MLLM 多帧空间理解能力的框架。该框架整合三个组件:深度感知、视觉对应和动态感知,以克服静态单图像分析的局限。研究人员开发出 MultiSPA,这是一个包含超 2700 万样本的新型大规模数据集,涵盖多样化的 3D 和 4D 场景。由此产生的 Multi - SpatialMLLM 模型相比基线和专有系统取得了显著提升,具备可扩展且泛化的多帧推理能力。此外,研究人员引入五项任务以生成训练数据:深度感知、视觉对应、相机运动感知、物体运动感知和物体大小感知。

Multi - SpatialMLLM 以 MultiSPA 数据生成流程和全面的基准测试系统为核心。数据格式遵循标准的 MLLM 微调策略,采用问答对形式:用户:〈图像〉...〈图像〉{描述}{问题},助手:{答案}。研究人员利用 GPT - 4o 生成多样化的任务描述、问题和答案模板。同时,使用包含 4D 数据集 Aria Digital Twin 和 Panoptic Studio,以及来自 TAPVid3D 的 3D 跟踪注释用于物体运动感知和 ScanNet 用于其他空间任务的高质量标注场景数据集。MultiSPA 从 110 万张独特图像生成超 2700 万问答样本,每个子任务评估留出 300 个样本,总计 7800 个基准测试样本。

在 MultiSPA 基准测试中,Multi - SpatialMLLM 相比基线模型平均提升 36%,在定性任务上达到 80% - 90% 的准确率,而基线模型仅为 50%,并且超越所有专有系统。即便是在预测相机运动矢量这类高难度任务中,其准确率也达 18%,而其他基线模型近乎零。在 BLINK 基准测试中,Multi - SpatialMLLM 准确率接近 90%,相比基线模型平均提升 26.4%,超越多个专有系统,展现出可转移的多帧空间理解能力。标准 VQA 基准测试评估显示其与原有性能大体持平,表明该模型保持了通用 MLLM 的专业性,未过度拟合空间推理任务。
总的来说,论文中,研究人员将 MLLM 的空间理解拓展至多帧场景,弥补了以往研究忽视的重要空白。他们引入 MultiSPA,这是首个针对多帧空间推理任务的大规模数据集和基准测试。实验验证表明,所提出的 Multi - SpatialMLLM 在多样化空间理解挑战中具有有效性、可扩展性和强大的泛化能力。研究揭示了多任务学习的诸多益处以及复杂空间推理中的涌现行为。该模型开辟出包括充当多帧奖励标注器在内的新应用场景,大家可以试试。
详见论文 :https://arxiv.org/abs/2505.17015
源码:https://github.com/facebookresearch/Multi-SpatialMLLM