【具身智能研究进展】RoboBrain 2.5：让机器人真正理解“空间”和“时间”的大脑模型

【具身智能研究进展】RoboBrain 2.5：让机器人真正理解"空间"和"时间"的大脑模型

摘要

具身智能的核心目标，是让智能体不仅能够"看懂世界"，还能够在真实物理环境中理解空间关系、判断任务进度，并完成可执行的动作规划。传统多模态大模型虽然具备较强的图文理解能力，但在机器人任务中仍然存在两个明显不足：一是对三维空间关系理解不够精确，二是对任务执行过程中的时间进度缺乏细粒度判断。

本文分析 BAAI RoboBrain Team 提出的 RoboBrain 2.5: Depth in Sight, Time in Mind 。该工作在 RoboBrain 系列基础上进一步强化了具身智能模型的空间与时间能力，重点引入 Precise 3D Spatial Reasoning（精确三维空间推理） 和 Dense Temporal Value Estimation（密集时间价值估计） 两项能力，使模型能够从单目 RGB 图像中理解深度、距离、空间约束和操作轨迹，并对机器人任务执行过程进行逐步进度判断。该研究体现了具身智能从"语言理解 + 图像识别"向"物理空间理解 + 执行状态评估"的进一步发展。

1. 论文基本信息

论文题目： RoboBrain 2.5: Depth in Sight, Time in Mind
研究团队： BAAI RoboBrain Team
研究方向： 具身智能、机器人基础模型、空间推理、时间建模、机器人操作
核心关键词： Embodied AI、Robot Foundation Model、3D Spatial Reasoning、Temporal Value Estimation、Robot Manipulation

从题目可以看出，RoboBrain 2.5 的关键词是：

Depth in Sight, Time in Mind

眼中有深度，脑中有时间

这句话很好地概括了该工作的研究重点：

Depth in Sight： 让机器人不仅看到二维图像，还要理解三维空间；
Time in Mind： 让机器人不仅知道任务目标，还要理解任务执行过程中的进度变化。

这与早期只强调"视觉识别"或"语言规划"的具身智能模型相比，明显更接近真实机器人落地需求。

2. 为什么这篇论文值得关注？

过去很多多模态大模型已经可以完成图像问答、场景描述、目标定位等任务。例如给模型一张厨房图片，它可以回答"桌子上有什么""杯子在哪里""盘子在水槽旁边"等问题。

但是对于机器人来说，仅仅回答这些问题还远远不够。

机器人真正需要解决的是：

目标物体离机械臂有多远？
哪个区域可以抓取？
从当前位置移动到目标位置是否会碰撞？
当前动作是否让任务更接近成功？
如果执行过程中发生偏移，模型能不能判断任务进度倒退？
下一步应该继续执行还是重新调整？

这些问题本质上不是普通图像理解问题，而是具身智能中的物理空间理解和时间过程建模问题。

RoboBrain 2.5 正是围绕这两个问题展开：

让机器人理解三维空间，让模型判断执行进度。

3. 从 RoboBrain 到 RoboBrain 2.5：研究重点发生了什么变化？

早期 RoboBrain 主要关注机器人操作中的三个核心能力：

能力	含义
任务规划	将复杂指令拆解成可执行子任务
可供性理解	判断物体哪些区域可以交互、抓取或操作
轨迹预测	预测末端执行器或手部的操作路径

例如用户说：

把杯子放到盘子旁边。

模型需要先理解任务，再判断杯子在哪里、盘子在哪里、杯子的可抓取区域在哪里，最后预测一条合理操作轨迹。

而 RoboBrain 2.5 的进一步升级在于，它不仅关注"做什么"和"怎么做"，还进一步关注：

空间上是否精确；
时间上是否连续；
任务进度是否可评估；
机器人执行是否更接近目标。

因此，RoboBrain 2.5 可以看作是从"机器人任务规划模型"向"机器人空间-时间大脑模型"的一次推进。

4. 核心创新一：精确 3D 空间推理

4.1 为什么机器人必须理解 3D 空间？

人在拿杯子时，并不是只知道"杯子在桌子上"，还会自然判断：

杯子距离手有多远；
杯子高度是多少；
杯把在哪个方向；
手应该从哪个角度接近；
抓取后应该沿什么路径移动；
移动过程中会不会碰到其他物体。

这些能力都属于三维空间理解。

对于机器人来说，如果只依赖二维图像中的像素位置，很容易出现问题。例如图像上两个物体看起来距离很近，但在真实三维空间中可能一前一后；一个目标看起来可抓取，但实际被遮挡或距离过远。

因此，RoboBrain 2.5 强调从 2D 像素级理解转向更具物理意义的 3D 空间推理。

4.2 RoboBrain 2.5 的 3D 空间推理包含什么？

RoboBrain 2.5 的精确 3D 空间推理主要包括三个层面：

能力	说明
3D Spatial Referring	根据语言描述定位三维空间中的目标位置
3D Measuring	理解物体大小、距离、方向等度量关系
3D Tracing	生成符合空间约束的三维操作轨迹

可以理解为：

不只是知道"目标在哪里"，还要知道"目标离我多远、应该从哪里接近、沿什么路径操作"。

例如面对如下指令：

把最靠近杯子的勺子拿起来。

普通视觉语言模型可能只能判断图像中哪个是勺子，而 RoboBrain 2.5 需要进一步理解多个物体之间的空间距离，并判断"最靠近杯子"的目标是哪一个。

再比如：

将物体从左侧绕过障碍物移动到盒子中。

这就不仅是目标识别问题，而是涉及路径、障碍物、空间约束和操作轨迹的问题。

5. 核心创新二：密集时间价值估计

5.1 为什么具身智能需要理解时间？

机器人执行任务不是一次性完成的，而是一个连续过程。

例如"打开抽屉"这个任务，可能包含：

靠近抽屉；
找到把手；
抓住把手；
向外拉动；
判断抽屉是否打开；
如果没有打开，调整姿态继续尝试。

在这个过程中，模型不仅要知道最终目标，还要判断每一步是否让任务更接近成功。

如果机器人抓偏了，或者抽屉只拉开了一点点，模型应该能够判断：

当前任务进度是否增加；
当前状态是否偏离目标；
是否需要重新规划；
是否应该给强化学习提供正反馈或负反馈。

这就是 RoboBrain 2.5 提出的 Dense Temporal Value Estimation 的意义。

5.2 什么是密集时间价值估计？

简单来说，密集时间价值估计就是：

对机器人执行过程中的每一帧、每一步、每个阶段进行进度判断。

它不是只在任务结束时判断成功或失败，而是在执行过程中持续判断：

当前动作是否有效；
任务是否正在向目标推进；
任务是否出现倒退；
哪一步可能发生了错误；
当前状态距离成功还有多远。

这对机器人学习非常重要。因为真实机器人训练成本很高，如果模型只能在最后给出"成功/失败"信号，学习效率会很低。而如果模型能够在执行过程中提供密集反馈，就可以帮助机器人更快学习、更快纠错。

6. RoboBrain 2.5 的整体技术思路

RoboBrain 2.5 可以理解为一个面向具身智能的空间-时间基础模型，其整体思路如下：

text 复制代码

视觉输入 / 视频输入 / 语言指令
        ↓
多模态大模型进行语义理解
        ↓
3D 空间推理：理解深度、距离、方向和空间约束
        ↓
轨迹生成：输出符合物理约束的操作路径
        ↓
时间价值估计：判断任务进度和执行状态
        ↓
辅助机器人规划、控制、反馈和强化学习