从Spatial-MLLM看到Multi-SpatialMLLM的多模态大语言模型Multi-SpatialMLLM是由Meta AI团队与香港中文大学联合开发的创新性多模态大语言模型,专门针对多帧空间理解任务进行了优化。该项目通过集成深度感知、视觉对应和动态感知三大核心能力,为MLLM注入了强大的多帧空间理解能力。项目的核心贡献包括MultiSPA大规模数据集(包含超过2700万个训练样本,涵盖多样化的3D和4D场景)、统一评估基准(提供全面的空间任务测试框架,使用统一的评估指标)、多任务协同优化(展现出显著的多任务学习效益和新兴能力)以及机器人应用(可作为多帧奖励标注器应用于机器人