Meta AI 推出 Multi - SpatialMLLM:借助多模态大语言模型实现多帧空间理解

多模态大语言模型(MLLM)作为多功能 AI 助手,在处理各类视觉任务方面取得了巨大进步。然而,它们作为独立数字实体部署,限制了其潜在影响。随着将 MLLM 整合到像机器人技术和自动驾驶汽车这类现实应用中的需求不断增长,这些应用需要复杂的空间理解能力。当前的 MLLM 存在基本的空间推理缺陷,常常连左右区分这类基础任务都难以完成。以往研究将这些局限归因于缺乏专门的训练数据,并通过在训练期间纳入空间数据来解决,但这些方法侧重于单图像场景,从而使模型的感知局限于静态视场分析,缺少动态信息。

许多研究方法试图解决 MLLM 在空间理解方面的局限。MLLM 配备可将视觉输入转化为与文本一并在语言模型潜在空间中处理的图像编码器。以往研究聚焦于单图像空间理解,评估物体间空间关系或空间识别。像 BLINK、UniQA - 3D 和 VSIBench 这些基准测试扩展到单图像之外。现有提升 MLLM 空间理解能力的改进包括:SpatialVLM 通过在精选空间数据集上微调模型;SpatialRGPT 纳入基于掩码的引用和深度图像;SpatialPIN 则利用专门的感知模型而无需微调。

FAIR Meta 和香港中文大学的研究人员提出了一种增强 MLLM 多帧空间理解能力的框架。该框架整合三个组件:深度感知、视觉对应和动态感知,以克服静态单图像分析的局限。研究人员开发出 MultiSPA,这是一个包含超 2700 万样本的新型大规模数据集,涵盖多样化的 3D 和 4D 场景。由此产生的 Multi - SpatialMLLM 模型相比基线和专有系统取得了显著提升,具备可扩展且泛化的多帧推理能力。此外,研究人员引入五项任务以生成训练数据:深度感知、视觉对应、相机运动感知、物体运动感知和物体大小感知。

Multi - SpatialMLLM 以 MultiSPA 数据生成流程和全面的基准测试系统为核心。数据格式遵循标准的 MLLM 微调策略,采用问答对形式:用户:〈图像〉...〈图像〉{描述}{问题},助手:{答案}。研究人员利用 GPT - 4o 生成多样化的任务描述、问题和答案模板。同时,使用包含 4D 数据集 Aria Digital Twin 和 Panoptic Studio,以及来自 TAPVid3D 的 3D 跟踪注释用于物体运动感知和 ScanNet 用于其他空间任务的高质量标注场景数据集。MultiSPA 从 110 万张独特图像生成超 2700 万问答样本,每个子任务评估留出 300 个样本,总计 7800 个基准测试样本。

在 MultiSPA 基准测试中,Multi - SpatialMLLM 相比基线模型平均提升 36%,在定性任务上达到 80% - 90% 的准确率,而基线模型仅为 50%,并且超越所有专有系统。即便是在预测相机运动矢量这类高难度任务中,其准确率也达 18%,而其他基线模型近乎零。在 BLINK 基准测试中,Multi - SpatialMLLM 准确率接近 90%,相比基线模型平均提升 26.4%,超越多个专有系统,展现出可转移的多帧空间理解能力。标准 VQA 基准测试评估显示其与原有性能大体持平,表明该模型保持了通用 MLLM 的专业性,未过度拟合空间推理任务。

总的来说,论文中,研究人员将 MLLM 的空间理解拓展至多帧场景,弥补了以往研究忽视的重要空白。他们引入 MultiSPA,这是首个针对多帧空间推理任务的大规模数据集和基准测试。实验验证表明,所提出的 Multi - SpatialMLLM 在多样化空间理解挑战中具有有效性、可扩展性和强大的泛化能力。研究揭示了多任务学习的诸多益处以及复杂空间推理中的涌现行为。该模型开辟出包括充当多帧奖励标注器在内的新应用场景,大家可以试试。

详见论文https://arxiv.org/abs/2505.17015
源码https://github.com/facebookresearch/Multi-SpatialMLLM

相关推荐
code_pgf4 分钟前
Jetson Orin NX 16G设备上配置AI服务自动启动的方案,包括Ollama、llama-server和OpenClaw Gateway三个组件
数据库·人工智能·安全·gateway·边缘计算·llama
前端付豪6 分钟前
实现 AI 回复支持 Markdown 渲染
前端·人工智能·markdown
数智大号6 分钟前
北京InfoComm China 2026高峰会议紧密契合国家“十五五”规划,人工智能引领科技未
人工智能
码路飞7 分钟前
Mistral Small 4 上手实测:119B 参数只激活 6B,开源模型卷到这地步了?
人工智能·llm
用户4815930195917 分钟前
为什么 Claude Code 值得深入学
人工智能
蒸汽求职9 分钟前
蒸汽教育求职分享:2026年数据工程师就业优势分析与职业发展路径指南
数据库·人工智能·面试·求职招聘·美国求职
火山引擎开发者社区10 分钟前
重磅发布|Scale‑SWE 构造 10 万级真实 SWE 数据集,火山引擎沙箱底座重塑代码智能体训练
人工智能
high201112 分钟前
【DB9.ai】- 面向 AI Agent 的无服务器 PostgreSQL
人工智能·postgresql·serverless
算法-大模型备案 多米14 分钟前
算法备案算法安全自评估报告模板(精简完善版)
大数据·网络·人工智能·算法·文心一言
阳火锅17 分钟前
鳌虾 AoCode:重新定义 AI 编程助手的下一代可视化工具
前端·人工智能·架构