【具身智能研究进展】RoboBrain 2.5:让机器人真正理解"空间"和"时间"的大脑模型
摘要
具身智能的核心目标,是让智能体不仅能够"看懂世界",还能够在真实物理环境中理解空间关系、判断任务进度,并完成可执行的动作规划。传统多模态大模型虽然具备较强的图文理解能力,但在机器人任务中仍然存在两个明显不足:一是对三维空间关系理解不够精确,二是对任务执行过程中的时间进度缺乏细粒度判断。
本文分析 BAAI RoboBrain Team 提出的 RoboBrain 2.5: Depth in Sight, Time in Mind 。该工作在 RoboBrain 系列基础上进一步强化了具身智能模型的空间与时间能力,重点引入 Precise 3D Spatial Reasoning(精确三维空间推理) 和 Dense Temporal Value Estimation(密集时间价值估计) 两项能力,使模型能够从单目 RGB 图像中理解深度、距离、空间约束和操作轨迹,并对机器人任务执行过程进行逐步进度判断。该研究体现了具身智能从"语言理解 + 图像识别"向"物理空间理解 + 执行状态评估"的进一步发展。
1. 论文基本信息
论文题目: RoboBrain 2.5: Depth in Sight, Time in Mind
研究团队: BAAI RoboBrain Team
研究方向: 具身智能、机器人基础模型、空间推理、时间建模、机器人操作
核心关键词: Embodied AI、Robot Foundation Model、3D Spatial Reasoning、Temporal Value Estimation、Robot Manipulation
从题目可以看出,RoboBrain 2.5 的关键词是:
Depth in Sight, Time in Mind
眼中有深度,脑中有时间
这句话很好地概括了该工作的研究重点:
- Depth in Sight: 让机器人不仅看到二维图像,还要理解三维空间;
- Time in Mind: 让机器人不仅知道任务目标,还要理解任务执行过程中的进度变化。
这与早期只强调"视觉识别"或"语言规划"的具身智能模型相比,明显更接近真实机器人落地需求。
2. 为什么这篇论文值得关注?
过去很多多模态大模型已经可以完成图像问答、场景描述、目标定位等任务。例如给模型一张厨房图片,它可以回答"桌子上有什么""杯子在哪里""盘子在水槽旁边"等问题。
但是对于机器人来说,仅仅回答这些问题还远远不够。
机器人真正需要解决的是:
- 目标物体离机械臂有多远?
- 哪个区域可以抓取?
- 从当前位置移动到目标位置是否会碰撞?
- 当前动作是否让任务更接近成功?
- 如果执行过程中发生偏移,模型能不能判断任务进度倒退?
- 下一步应该继续执行还是重新调整?
这些问题本质上不是普通图像理解问题,而是具身智能中的物理空间理解和时间过程建模问题。
RoboBrain 2.5 正是围绕这两个问题展开:
让机器人理解三维空间,让模型判断执行进度。
3. 从 RoboBrain 到 RoboBrain 2.5:研究重点发生了什么变化?
早期 RoboBrain 主要关注机器人操作中的三个核心能力:
| 能力 | 含义 |
|---|---|
| 任务规划 | 将复杂指令拆解成可执行子任务 |
| 可供性理解 | 判断物体哪些区域可以交互、抓取或操作 |
| 轨迹预测 | 预测末端执行器或手部的操作路径 |
例如用户说:
把杯子放到盘子旁边。
模型需要先理解任务,再判断杯子在哪里、盘子在哪里、杯子的可抓取区域在哪里,最后预测一条合理操作轨迹。
而 RoboBrain 2.5 的进一步升级在于,它不仅关注"做什么"和"怎么做",还进一步关注:
- 空间上是否精确;
- 时间上是否连续;
- 任务进度是否可评估;
- 机器人执行是否更接近目标。
因此,RoboBrain 2.5 可以看作是从"机器人任务规划模型"向"机器人空间-时间大脑模型"的一次推进。
4. 核心创新一:精确 3D 空间推理
4.1 为什么机器人必须理解 3D 空间?
人在拿杯子时,并不是只知道"杯子在桌子上",还会自然判断:
- 杯子距离手有多远;
- 杯子高度是多少;
- 杯把在哪个方向;
- 手应该从哪个角度接近;
- 抓取后应该沿什么路径移动;
- 移动过程中会不会碰到其他物体。
这些能力都属于三维空间理解。
对于机器人来说,如果只依赖二维图像中的像素位置,很容易出现问题。例如图像上两个物体看起来距离很近,但在真实三维空间中可能一前一后;一个目标看起来可抓取,但实际被遮挡或距离过远。
因此,RoboBrain 2.5 强调从 2D 像素级理解转向更具物理意义的 3D 空间推理。
4.2 RoboBrain 2.5 的 3D 空间推理包含什么?
RoboBrain 2.5 的精确 3D 空间推理主要包括三个层面:
| 能力 | 说明 |
|---|---|
| 3D Spatial Referring | 根据语言描述定位三维空间中的目标位置 |
| 3D Measuring | 理解物体大小、距离、方向等度量关系 |
| 3D Tracing | 生成符合空间约束的三维操作轨迹 |
可以理解为:
不只是知道"目标在哪里",还要知道"目标离我多远、应该从哪里接近、沿什么路径操作"。
例如面对如下指令:
把最靠近杯子的勺子拿起来。
普通视觉语言模型可能只能判断图像中哪个是勺子,而 RoboBrain 2.5 需要进一步理解多个物体之间的空间距离,并判断"最靠近杯子"的目标是哪一个。
再比如:
将物体从左侧绕过障碍物移动到盒子中。
这就不仅是目标识别问题,而是涉及路径、障碍物、空间约束和操作轨迹的问题。
5. 核心创新二:密集时间价值估计
5.1 为什么具身智能需要理解时间?
机器人执行任务不是一次性完成的,而是一个连续过程。
例如"打开抽屉"这个任务,可能包含:
- 靠近抽屉;
- 找到把手;
- 抓住把手;
- 向外拉动;
- 判断抽屉是否打开;
- 如果没有打开,调整姿态继续尝试。
在这个过程中,模型不仅要知道最终目标,还要判断每一步是否让任务更接近成功。
如果机器人抓偏了,或者抽屉只拉开了一点点,模型应该能够判断:
- 当前任务进度是否增加;
- 当前状态是否偏离目标;
- 是否需要重新规划;
- 是否应该给强化学习提供正反馈或负反馈。
这就是 RoboBrain 2.5 提出的 Dense Temporal Value Estimation 的意义。
5.2 什么是密集时间价值估计?
简单来说,密集时间价值估计就是:
对机器人执行过程中的每一帧、每一步、每个阶段进行进度判断。
它不是只在任务结束时判断成功或失败,而是在执行过程中持续判断:
- 当前动作是否有效;
- 任务是否正在向目标推进;
- 任务是否出现倒退;
- 哪一步可能发生了错误;
- 当前状态距离成功还有多远。
这对机器人学习非常重要。因为真实机器人训练成本很高,如果模型只能在最后给出"成功/失败"信号,学习效率会很低。而如果模型能够在执行过程中提供密集反馈,就可以帮助机器人更快学习、更快纠错。
6. RoboBrain 2.5 的整体技术思路
RoboBrain 2.5 可以理解为一个面向具身智能的空间-时间基础模型,其整体思路如下:
text
视觉输入 / 视频输入 / 语言指令
↓
多模态大模型进行语义理解
↓
3D 空间推理:理解深度、距离、方向和空间约束
↓
轨迹生成:输出符合物理约束的操作路径
↓
时间价值估计:判断任务进度和执行状态
↓
辅助机器人规划、控制、反馈和强化学习