美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作

在机器人操作领域,"通用性" 始终是难以攻克的难关------现有方案要么局限于 2D 视觉理解,无法适配物理世界的 3D 空间交互;要么依赖单一数据集训练,面对不同机器人、不同场景就 "水土不服"。

而美团团队提出的RoboTron-Mani ,以 "3D 感知增强 + 多模态融合架构" 为核心,搭配涵盖多平台数据的RoboData数据集,实现了 "跨数据集、跨机器人、跨场景" 的全能操作:既通过相机参数与占用率监督强化 3D 空间理解,又借助模态隔离掩码提升多模态融合精度,最终在模拟与真实场景中,成为首个超越专家模型的通用型机器人操作策略。

RoboTron-Mani 官方项目页https://github.com/EmbodiedAI-RoboTron/RoboTron-Mani

原文链接:美团 "全能突破":RoboTron-Mani +RoboData实现通用机器人操作

为什么要重构机器人操作的模型与数据体系?

当前机器人操作方案陷入了 "双重瓶颈":要么模型缺乏 3D 感知能力,难以应对物理世界的空间交互;要么数据集存在模态缺失、空间错位问题,导致跨平台训练效果差,核心问题可归结为 "无法同时兼顾'3D 环境适配性'与'数据利用高效性'":

方案类型 代表思路 核心缺陷
传统多模态模型 基于 2D 图像的视觉 - 语言 - 动作映射 1. 聚焦 2D 图像理解,缺乏 3D 空间感知,物理世界交互精度低;2. 模态融合灵活性差,难以适配多源输入
单数据集训练模型 针对特定机器人 / 场景优化策略 1. 泛化能力弱,换机器人或场景需重新训练;2. 数据收集成本高,如 RT-1 数据集 13 万段数据耗时 17 个月
多数据集融合方案 简单拼接不同平台数据 1. 缺失多视角图像、深度图等关键模态;2. 空间坐标与动作表示不统一,导致训练冲突、性能下降

这些方案都忽略了一个关键:机器人操作是 "3D 空间感知" 与 "多源数据协同" 的结合------既需要模型能精准理解物理空间的物体位置、姿态关系,又需要高质量数据集提供统一的训练与评估标准。

RoboTron-Mani 与 RoboData 的协同设计,正是针对性解决这一问题:用 RoboTron-Mani 突破 3D 感知与模态融合瓶颈,用 RoboData 解决数据模态缺失与空间错位问题,最终实现 "从数据到模型" 的全链路优化。

RoboTron-Mani + RoboData:如何实现通用机器人操作?

RoboTron-Mani 的核心设计可概括为 "以 3D 感知为基础,以多模态融合为核心,搭配统一数据集,实现跨场景、跨机器人的通用操作"。它既具备精准的空间理解能力,又能灵活处理多源输入,具体分为两大核心组件:

核心组件 1:RoboTron-Mani 模型------多模态融合的 "操作大脑"

RoboTron-Mani 采用 "视觉编码器 + 3D 感知适配器 + 特征融合解码器 + 多模态解码器" 的四层架构,支持文本、图像、相机参数等多源输入,输出动作、图像、占用率等多模态结果,数学表达为:

( O A , [ O I , O O ] ) = RoboTron-Mani ( T , I , C a m ) \left(O_{A},\left[O_{I}, O_{O}\right]\right)= \text{RoboTron-Mani}(T, I, Cam) (OA,[OI,OO])=RoboTron-Mani(T,I,Cam)

其中,T为文本指令,I为多视角图像序列,Cam为相机参数, O A O_A OA为机器人动作, O I O_I OI为预测图像, O O O_O OO为 3D 占用率,四大核心模块的设计逻辑如下:

视觉编码器:提取多视角时空特征

从H个时间步、N个视角的图像中提取特征 F I h , n F_{I}^{h, n} FIh,n,为后续 3D 感知与模态融合提供基础,适配机器人操作的多视角观测需求。

3D 感知适配器:强化空间理解能力

采用 UVFormer 模型,融合图像特征、相机参数与可学习查询,生成统一的 3D 视图表示,数学表达为:

U I h = UVFormer ( Q , X h , C a m h ) U_{I}^{h}=\text{UVFormer}\left(Q, X^{h}, Cam^{h}\right) UIh=UVFormer(Q,Xh,Camh)

其中,Q为查询的位置与特征信息, X h X^h Xh为图像特征, C a m h Cam^h Camh为相机参数, U I h U_I^h UIh包含 L × B × P L×B×P L×B×P 3D 网格的空间信息,让模型精准理解物体的三维位置与姿态关系。

特征融合解码器:灵活适配多模态输入

基于 OpenFlamingo 的交叉注意力机制,引入模态隔离掩码(MIM) ,实现多模态的灵活融合与监督。关键设计包括:

  • 构建包含文本、图像、动作等模态的读取令牌序列 T ′ T' T′,通过词嵌入层生成文本特征 F T F_T FT;

  • 以文本特征为查询,3D 视图表示为键值对,通过交叉注意力融合多模态信息;

  • MIM 机制可控制不同模态间的注意力交互,训练时支持辅助模态监督,推理时可省略不必要模态,大幅提升灵活性。

多模态解码器:精准输出操作结果

针对不同输出类型设计专用解码器,确保结果精准性:

  • 图像解码器:通过注意力层与卷积网络,生成下一时间步的静态图像或手腕视角图像;
  • 占用率解码器:通过 3D 卷积网络重建 3D 占用率,包含空间位置与 RGB 颜色信息,辅助空间感知;
  • 动作解码器:采用 MLP 或 DiT 模块,输出机器人 6D 位姿增量与夹具动作,直接指导操作执行。
训练目标:多模态协同优化

设计综合损失函数,同时优化动作、图像、占用率输出,数学表达为:

l = l a + λ i m a g e ( l s i m g + l g i m g ) + λ o c c l o l=l_{a}+\lambda {image}\left( l{simg}+l_{gimg}\right) +\lambda {occ} l{o} l=la+λimage(lsimg+lgimg)+λocclo

其中, l a l_a la为动作损失(结合 MSE 与 BCE 损失), l s i m g l_{simg} lsimg与 l g i m g l_{gimg} lgimg为图像损失(L2 损失), l o l_o lo为占用率损失(位置与 RGB 颜色损失),支持模态缺失时灵活调整损失项。

核心组件 2:RoboData 数据集------统一标准的 "训练与评估基石"

RoboData 整合了 CALVIN、Meta-World、RT-1 等 9 个主流公开数据集,包含 7 万段任务序列、700 万个样本,涵盖拾取、放置、堆叠等多种任务,核心解决传统数据集的三大痛点:

模态补全:完善 3D 相关关键信息

针对多数数据集缺失深度图、相机参数的问题,通过重新渲染模拟环境、重建原始数据等方式,补充这些关键模态,为 3D 感知训练提供支撑。

空间与动作对齐:消除跨平台差异
  • 3D 空间对齐:将所有数据集的坐标系统一为 "X 轴向右、Y 轴向前、Z 轴向上",并统一工作空间范围为 [-0.5,-0.5,0] 至 [0.5,0.5,1];
  • 动作表示对齐:采用复合旋转矩阵法(CRMM)统一不同数据集的动作表示,解决欧拉角差分、位姿组合等多种表示方式的冲突问题。
统一评估体系:支持跨数据集测试

提供标准化的输入输出接口,支持模型在多个数据集上同时评估,避免传统方案 "仅适配单一数据集" 的局限,为通用机器人操作模型提供公平的评估基准。

实验结果:通用型操作模型如何超越专家方案?

RoboTron-Mani 在 "模拟 + 真实" 数据集、"单任务 + 多任务" 场景下的实验,充分验证了其通用性与优越性,核心结论可概括为 "3D 感知强、跨场景泛化好、多数据集性能优":

核心性能:超越专家模型的通用能力

在 LIBERO、RoboCasa、CALVIN、Meta-World、RT-1 五大数据集上,RoboTron-Mani 作为首个通用型策略,实现了对专家模型的超越:

  • LIBERO 数据集:成功率达 91.7%,超过当前最佳专家模型 QueST(89.8%);
  • CALVIN 数据集:成功率 93.8%,任务平均序列长度从 1.7 提升至 3.5,大幅提升长序列任务能力;
  • RT-1 数据集:平均成功率 60%,显著优于同参数规模的其他模型;
  • 跨数据集泛化:在 4 个模拟数据集上,相较于通用模型 RoboFlamingo,成功率平均提升 14.8%-19.6%。

消融实验:关键模块的核心价值

通过禁用 RoboTron-Mani 的关键模块,验证各组件的必要性:

  • 无 3D 感知适配器(UVFormer):CALVIN 数据集首任务成功率从 94.2% 降至 85.0%,空间感知精度显著下降;
  • 无模态隔离掩码(MIM):多模态融合灵活性降低,跨数据集泛化性能下降 12%-15%;
  • 无占用率监督(OCC):长序列任务成功率下降明显,后续任务成功率从 56.5% 降至 48.1%,证明 3D 空间信息对复杂操作的重要性。

数据对齐的影响:RoboData 的关键作用

对比 "对齐前" 与 "对齐后" 的数据训练效果,验证 RoboData 空间与动作对齐的价值:

  • RoboTron-Mani 在对齐数据上训练后,LIBERO 数据集成功率从 64.2% 提升至 90.7%,CALVIN 数据集从 74.7% 提升至 91.0%;
  • 未对齐数据训练时,Meta-World 数据集因动作表示简单(仅 3 个位置变化),性能下降较小,但其他数据集成功率平均下降 25%-30%,证明数据对齐是跨平台训练的基础。

关键结论与未来方向

核心结论

  • 3D 感知是物理世界交互的关键:通过相机参数与占用率监督,RoboTron-Mani 大幅提升空间理解能力,为精准操作提供基础;
  • 统一数据集是通用模型的前提:RoboData 解决了模态缺失、空间错位问题,使跨平台、跨机器人训练成为可能;
  • 多模态融合需兼顾灵活性与精准性:模态隔离掩码(MIM)让模型可灵活适配多源输入,专用解码器确保动作、图像等输出的精准性。

未来方向

  • 多模态扩展:当前以视觉、文本、相机参数为主,未来可加入触觉、力反馈等模态,提升复杂场景适应性;
  • 模型效率优化:当前 40 亿参数模型训练需 50 小时,未来可通过模型轻量化、量化等方式,适配边缘计算场景;
  • 真实场景数据扩充:进一步整合更多真实世界数据集,减少模拟到真实场景的域迁移差距。

总结

RoboTron-Mani 与 RoboData 的协同创新,打破了 "机器人操作要么 3D 感知弱,要么泛化能力差" 的僵局。它没有局限于单一数据集或场景的局部优化,而是通过 "3D 感知增强 + 多模态融合 + 统一数据标准" 的全链路设计,实现了 "跨数据集、跨机器人、跨场景" 的通用操作。对于追求规模化落地的工业(如仓储分拣)、服务(如家庭保洁)场景,这种兼顾通用性与实用性的方案,为机器人操作技术的产业化提供了重要参考。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

相关推荐
Software攻城狮3 小时前
机器人伺服
机器人
信鸽爱好者3 小时前
Windows +VM虚拟机安装github服务器
服务器·windows·ubuntu·机器人·github
具身智能之心4 小时前
从长时程推理到精准操纵:LoLA 破解机器人多步任务执行难题
机器人·具身智能
机器人行业研究员5 小时前
破局与重构:2025年中国六维力传感器产业的价值升维之路
人工智能·机器人·人机交互·六维力传感器·关节力传感器
点云SLAM5 小时前
点云配准算法之- GICP算法点云配准概率模型推导和最大似然求解(MLE)
算法·机器人·slam·点云配准·最大似然估计·点云数据处理·gicp算法
lisw056 小时前
AI宠物(AI pets)概述!
人工智能·机器人·宠物
汽车仪器仪表相关领域7 小时前
ZDT-I 伺服电机测试系统
数据库·功能测试·安全·机器人·压力测试·可用性测试
沫儿笙8 小时前
库卡机器人钢结构焊接WGFACS节气装置
人工智能·机器人
J_Xiong01178 小时前
【VLMs篇】12:Cambrian-S:迈向视频中的空间超感知
人工智能·机器人