示教学习强化学习用的标准数据集

层级 平台/数据集 目的 推荐任务

|----------|---------------------------|----------------------------------------------|------------------------------------------------------|
| 基础仿真 | robosuite / robomimic | 证明方法在标准机器人操作任务上有效,便于和 BC、IQL、QFilter、SAC 等比较 | Lift, Can, Square, Transport, PickPlace, NutAssembly |

|-----------|----------------------------|-------------------------------|------------------------------------------------------------------|
| 多任务泛化 | Meta-World 或 ManiSkill | 证明不是只对 PandaPush/PickPlace 有效 | Push, PickPlace, DoorOpen, DrawerOpen, ButtonPress, PegInsertion |

|--------------|----------------------|----------------------------------------------|---------------------------------------------------------------------------------------|
| 长时序/视觉任务 | RLBench / CALVIN | 证明 autonomy boundary 和 local prior 对长时序任务有价值 | StackBlocks, PutItemInDrawer, OpenDrawer, CloseJar, PickAndLift, PlaceIntoShapeSorter |

|--------------|------------------------------------|------------------|---------------------------------------------------------------------|
| 真实/准真实验证 | 真实 Franka/UR5 或 FurnitureBench | 证明 T-RO 级机器人部署价值 | Real Push, Real Pick-and-Place, DrawerOpen, PegInsertion / Assembly |

1. robosuite / robomimic:最适合作为你的主实验基础平台

robosuite 是基于 MuJoCo 的机器人操作仿真框架,提供一组可复现的机器人操作 benchmark 环境。robomimic 则是专门面向 robot learning from demonstration 的框架,提供示教数据集、离线学习算法和统一评测流程。robomimic 官方定位就是提供机器人操作领域的 demonstration datasets 和 learning algorithms,目标是支持公平、可复现的 robot learning benchmark。

常见任务包括:

任务 类型 难度 适合你的点
Lift 基础抓取 用来快速验证代码
Can / PickPlace 抓取放置 对应你现在 PickPlace
Square / NutAssembly 插入/装配 体现接触和精细操作
ToolHang / Transport 长时序、多阶段 很适合 T-RO 级别扩展

2. ManiSkill:适合多任务泛化和更复杂操作

ManiSkill 是基于 SAPIEN 的开源机器人仿真和训练框架,重点是 manipulation skills,并且现在发展很快,适合做多任务、多物体、不同机器人和高效仿真训练。官方说明它是 open-source robot simulation and training framework,focus on manipulation skills。

常见任务包括:

任务 类型 适合你的点
PickCube / PickSingle 抓取 对应基础示教学习
StackCube 长时序 验证局部 prior 是否能帮助多阶段任务
PushCube 接触推动 对应你现在 PandaPush
PegInsertion 精细插入 验证安全、接触、失败恢复
TurnFaucet / OpenCabinet 约束操作 验证支持分布偏移和人类干预

3. Meta-World:适合快速跑很多任务,但机器人真实感弱一些

Meta-World 是多任务/元强化学习领域非常常用的 benchmark,包含 50 个机器人操作任务。它的优势是任务多、运行相对轻量,适合做"多任务泛化"表格;缺点是物理真实性和示教学习标准化程度不如 robosuite/robomimic。Meta-World 论文将其定义为 50 个机器人 manipulation tasks 的 benchmark。

你可以用它做:

复制代码
Push
PickPlace
DoorOpen
DrawerOpen
ButtonPress
PegInsertion

4. RLBench:适合长时序、视觉、多任务和少样本示教

RLBench 是机器人学习里很常用的长时序、多任务、视觉 benchmark。它包含 100 个手工设计任务,任务从简单 reaching、door opening 到 opening oven and placing tray 这种多阶段任务;它提供 proprioceptive、RGB、depth、segmentation 等多模态观测,并且每个任务可以通过 motion planner 生成大量 demonstrations。

常见任务包括:

任务 类型 适合你的点
PickAndLift 基础抓取 少量示教启动
OpenDrawer / PutItemInDrawer 约束 + 长时序 支持偏移、人类干预
StackBlocks 多阶段 action prior / subtask prior
CloseJar 接触/约束 精细操作
PlaceIntoShapeSorter 精细放置 失败恢复

5. CALVIN:适合语言条件、长时序、多步任务

CALVIN 全称是 Composing Actions from Language and Vision,是一个 language-conditioned long-horizon manipulation benchmark。它的目标是让机器人根据语言指令和视觉观测完成长时序任务。官方说明它是 open-source simulated benchmark,用于学习 long-horizon language-conditioned tasks。

它适合:

复制代码
复制代码
语言指令 + 多步操作 + 长时序组合任务

6. LIBERO:适合 lifelong learning、多任务迁移和 VLA 方向

LIBERO 是面向 lifelong robot learning 的 benchmark,包含 Spatial、Object、Goal、Long 等 suite,并提供 LIBERO-100 这类多任务数据集。官方说它是 tailored to lifelong robot learning,核心关注 knowledge transfer。

它适合:

Suite 作用
LIBERO-Spatial 空间关系变化
LIBERO-Object 物体变化
LIBERO-Goal 目标变化
LIBERO-Long 长时序任务
LIBERO-100 大规模多任务学习

7. DROID:真实世界大规模机器人示教数据

DROID 是近几年非常重要的真实机器人 manipulation 数据集。官方介绍它包含 76k demonstration trajectories / 350h interaction data,覆盖 564 scenes 和 86 tasks,由 50 个数据采集者跨多个地区采集。

它的优势是:

复制代码
复制代码
真实世界、多场景、多任务、多采集者、大规模

它适合:

  • 训练视觉 encoder;
  • 预训练检索特征 ψ(o)\psi(o)ψ(o);
  • 分析 demonstration quality;
  • 做 offline prior memory;
  • 做真实数据上的离线泛化测试。

但它不适合直接证明你的 online human intervention 机制,因为 DROID 是已经采好的离线数据,不包含你自己部署过程中"何时请求人类、何时接管、接管前风险片段"的闭环实验。

8. BridgeData V2:真实数据泛化和多机构迁移

BridgeData V2 是 Berkeley/Rail 系列的大规模真实机器人数据集,包含约 60k 条机器人操作轨迹,覆盖 24 个环境,支持 goal image 或自然语言条件的多任务学习。官方强调它用于 scalable robot learning,并且技能可以泛化到新物体、新环境和跨机构场景。

它适合:

  • 预训练视觉/语言条件策略;
  • 做 goal-conditioned policy;
  • 做真实数据上的 prior retrieval;
  • 验证你的方法是否能利用外部真实示教库。

但和 DROID 一样,它主要是离线数据集,不能单独证明 online intervention。

9. FurnitureBench:最像 T-RO/IJRR 的真实长时序 benchmark,但难度最高

FurnitureBench 是真实世界家具装配 benchmark,目标是提供可复现的 long-horizon complex manipulation 任务。它提供 200+ 小时预采集数据、5000+ demonstrations、3D printable furniture models、真实环境搭建指南和 FurnitureSim 仿真器。

它的特点是:

复制代码
复制代码
真实机器人
长时序
装配任务
可复现硬件
有示教数据
有仿真器

这非常适合 T-RO/IJRR,但难度也很高。你如果能在 FurnitureBench 上做出结果,会很有说服力;但如果现在刚从会议版扩展,不建议第一阶段就上它。

相关推荐
SuperHeroWu72 小时前
【算法】强化学习中奖励和损失函数的关系
算法·环境·强化学习·损失函数·奖励
Agilex松灵机器人2 小时前
松灵技术生态|IsaacLab中实现松灵PIPER机械臂键盘遥操作与数据采集教程
agent·强化学习·仿真·具身智能·skill·松灵机器人
硅谷秋水3 小时前
Qwen-VLA:跨任务、环境与机器人形态的视觉-语言-动作统一建模
人工智能·深度学习·算法·计算机视觉·语言模型·机器人
叶子Talk5 小时前
COMPTUEX炸场:OpenAI杀入机器人,英特尔288核CPU首秀
机器人
J_Xiong01175 小时前
【WAM篇】21:RIGVid——让机器人“照着 AI 生成的视频“干活,零演示、零训练
机器人·wam
ZPC82105 小时前
前馈补偿原理 + 分类 + 公式 + 工程实现(配合 PID 使用,从根源减轻闭环收敛压力)
人工智能·分布式·机器人
沫儿笙6 小时前
新能源汽车焊接智能节气装置
人工智能·机器人·汽车
J_Xiong01177 小时前
【WAM篇】22:ARDuP——让视频世界模型“盯紧任务相关区域“再行动
机器人·wam