2026-01-19-论文阅读-AgiBot-1


title: 2026-01-19-论文阅读-AgiBot

date: 2026-01-19

tags:

  • 论文阅读
  • 具身智能

AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

一、论文基本信息

  • 标题:《AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems》
  • 原文链接
  • 作者:Team AgiBot-World∗

关键词:具身智能,ViLLA,人机协作,通用机器人。

二、研究背景与问题定义

这篇论文的核心是一个大规模操纵平台,并配套高质量数据与通用策略:

  • 平台规模: 完全开源,1M+轨迹,3000+物体,217个任务
  • 采集方式: 远程控制(双臂机器人),人工评审
  • 传感配置: RGBD摄像头,视觉触觉传感器
  • 多场景任务适用:
    • 后勤/物流
    • 多机器人协作
    • 视觉触觉
    • 双手工具使用
  • 部署规模: 100台多功能人形机器人,完全开源

Teleoperation(远程操作)说明:

  • 在数据收集过程中,熟练的远程操作员使用VR控制器或动作捕捉系统控制 Agibot G1 机器人,采集大量操纵演示数据。
  • 该方式可模拟人类精细操作,生成高质量操纵轨迹,尤其适用于复杂、长时或需要精细控制的任务。
  • 操作员技能水平和操作质量直接影响数据有效性,因此培训与标准化流程非常关键。

三、核心方法 / 模型 / 系统设计

数据采集通过边云双端协同实现,需要人的远程操控进行训练,并进行手动评估。

数据特征与训练框架:

  • 相比此前数据集,目标控制时间更长,平均约30s
  • 采用三阶段 Vision-Language-Latent-Action (ViLLA) 架构训练
  • VLM Backbone: 使用了 InternVL2.5-2B 模型
    三阶段要点:
    • Stage 1: 在互联网规模的异构数据上训练编码器-解码器潜在动作模型(LAM),将连续图像映射到潜在动作空间,作为连接图文输入与机器人动作的中间表示。
    • Stage 2: 用潜在动作作为伪标签训练潜在规划器,实现与机器人形态无关的长时规划,并利用预训练 VLM 的泛化能力。
    • Stage 3: 引入动作专家(Action Expert),与潜在规划器联合训练,支持灵巧操作学习。

四、实验

  • 评估环境: 全部在真实物理环境进行,未使用仿真
  • 评估任务: 覆盖工具使用、柔性物体操作、人机交互、语言跟随
    • Restock Bag: 将零食从推车放到货架上
    • Table Bussing: 清理桌面垃圾到垃圾桶
    • Pour Water: 拿起水壶倒水进杯子
    • Restock Beverage: 将饮料瓶放到货架上
    • Fold Shorts: 将短裤折叠两次
    • Wipe Table: 用海绵擦拭桌上的水渍
  • 测试场景:
    • 分布内(In-distribution / Seen): 训练中见过的场景
    • 分布外(Out-of-distribution / Unseen): 位置变化、视觉干扰物、语言指令变化
  • 评分标准: 每个任务、场景、方法进行10次滚降测试(Rollouts),完全成功记1.0,部分成功记分,取平均归一化分数

Baseline

为了验证 GO-1 模型与数据集质量,论文使用了以下对比基线:

  1. RDT-1B:
    • 开源的基于扩散模型(Diffusion-based)的双臂操作基础模型,作为主要外部对比对象(Prior generalist policy)
  2. GO-1 w/o Latent Planner(消融实验):
    • 论文模型变体,去掉潜在规划器(Latent Planner)
    • 用于验证 ViLLA 架构中潜在规划器对长序列任务与泛化能力的重要性
  3. 基于 Open X-Embodiment(OXE) 训练的策略:
    • 使用相同模型架构,分别在 AgiBot World 与 OXE 上预训练,用于对比数据质量

核心实验结果与发现

实验结果主要回答三个问题:

A. GO-1 是否是更强的通用策略?

  • 结果: GO-1 在所有任务中均大幅超越 RDT-1B 与不带潜在规划器的变体
  • 数据: 平均得分 RDT-1B 约0.36,不带规划器版本约0.49,完整版 GO-1 约0.66(参考图表数据)
  • 分析: 潜在规划器显著提升复杂任务(如叠短裤)性能,并增强对指令跟随(如补货饮料)的泛化能力

B. AgiBot World 数据集是否比现有数据集(如 OXE)更有效?

  • 结果: 在 AgiBot World 上预训练的策略显著优于在 OXE 上训练的策略
  • 数据: 分布内成功率从0.47提升至0.77; 分布外(泛化)从0.38提升至0.67
  • 效率: 仅使用 AgiBot World Alpha(约236小时)也超过 OXE(约2000小时),证明高质量数据的重要性

C. 数据规模与质量的影响(Scaling Laws & Data Quality)

  • 规模法则(Data Scaling): 训练轨迹从9.2k增至1M,性能呈幂律(Power-law)增长,相关系数 r=0.97
  • 质量大于数量: 仅使用人工验证(Human-in-the-loop verified)高质量小数据集(528条)优于混合未验证数据的大数据集(1010条),得分提升0.18,强调 Human-in-the-loop 数据清洗机制

五、创新点与改进空间

创新点

  • AgiBot World 平台: 1M+轨迹、217任务、5类部署场景,规模较主流数据集(如 OXE)高一个数量级
  • GO-1 + 潜在动作规划器: 提出通用策略 Genie Operator-1(GO-1),在多数据体上统一训练,性能较 prior arts 提升约32%

改进空间

Limitation. All evaluations are conducted in real-world scenarios. We are currently developing the simulation environment, aligning with the real-world setup and aiming to reflect real-world policy deployment outcome. It would thereby facilitate fast and reproducible evaluation.

  • 所有评估在真实世界场景进行,正在开发仿真环境,目前复现不方便

六、我的思考

  • 传感器: 目前机器人多用视觉与触觉,部分用雷达/三维成像,是否还有其他类型传感器适合对应任务?
  • 数据特性: NLP/CV 发展快,但机器人训练数据异构、非结构化、碎片化,现实任务仍有很大空间
  • 保留1%失败恢复数据对鲁棒性的贡献?
    • 采集中遥操作员可能失误(如掉落物体),AgiBot World 要求从错误中恢复并继续任务(不重置)
    • 研究团队保留轨迹并精细处理:
      • 手动标注: 每条轨迹标注失败原因时间戳(failure reasons timestamps)
      • 策略对齐(Policy Alignment): 学习人类纠错动作,使策略更贴近人类意图,提升鲁棒性
      • 失败反思(Failure Reflection): 学习识别失败状态并恢复,真实场景意外(抓取滑脱)可补救
  • 图表呈现: 关键数据可用不同背景标注,便于读者阅读
相关推荐
魔芋红茶4 小时前
Spring Security 学习笔记 1:快速开始
笔记·学习·spring
皇夜_4 小时前
【AI发电】极简笔记:支持安卓和H5协同笔记
笔记
小程同学>o<4 小时前
嵌入式之ARM体系与架构面试题(四)通信协议篇
arm开发·笔记·架构·嵌入式软件·通信协议·面试题库
AI视觉网奇5 小时前
ue5 默认相机设置
笔记·学习·ue5
IT19955 小时前
C++ 实战笔记:OpenSSL3.5.2 实现 SM2 数据加密(附完整源码 + 注释)
开发语言·c++·笔记
DBBH5 小时前
DBBH的AI学习笔记
人工智能·笔记·学习
June bug5 小时前
【实习笔记】正交实验法设计测试用例
笔记·学习·测试用例
深兰科技5 小时前
俄罗斯T1集团代表团到访深兰科技,就具身智能与复杂场景工程化应用达成多项合作共识
windows·ci/cd·github·visual studio·具身智能·深兰科技·俄罗斯t1集团
小明_GLC5 小时前
ChatTS: Time Series LLM for Understanding and Reasoning
论文阅读