| 层级 | 平台/数据集 | 目的 | 推荐任务 |
|---|
|----------|---------------------------|----------------------------------------------|------------------------------------------------------|
| 基础仿真 | robosuite / robomimic | 证明方法在标准机器人操作任务上有效,便于和 BC、IQL、QFilter、SAC 等比较 | Lift, Can, Square, Transport, PickPlace, NutAssembly |
|-----------|----------------------------|-------------------------------|------------------------------------------------------------------|
| 多任务泛化 | Meta-World 或 ManiSkill | 证明不是只对 PandaPush/PickPlace 有效 | Push, PickPlace, DoorOpen, DrawerOpen, ButtonPress, PegInsertion |
|--------------|----------------------|----------------------------------------------|---------------------------------------------------------------------------------------|
| 长时序/视觉任务 | RLBench / CALVIN | 证明 autonomy boundary 和 local prior 对长时序任务有价值 | StackBlocks, PutItemInDrawer, OpenDrawer, CloseJar, PickAndLift, PlaceIntoShapeSorter |
|--------------|------------------------------------|------------------|---------------------------------------------------------------------|
| 真实/准真实验证 | 真实 Franka/UR5 或 FurnitureBench | 证明 T-RO 级机器人部署价值 | Real Push, Real Pick-and-Place, DrawerOpen, PegInsertion / Assembly |
1. robosuite / robomimic:最适合作为你的主实验基础平台
robosuite 是基于 MuJoCo 的机器人操作仿真框架,提供一组可复现的机器人操作 benchmark 环境。robomimic 则是专门面向 robot learning from demonstration 的框架,提供示教数据集、离线学习算法和统一评测流程。robomimic 官方定位就是提供机器人操作领域的 demonstration datasets 和 learning algorithms,目标是支持公平、可复现的 robot learning benchmark。
常见任务包括:
| 任务 | 类型 | 难度 | 适合你的点 |
|---|---|---|---|
| Lift | 基础抓取 | 低 | 用来快速验证代码 |
| Can / PickPlace | 抓取放置 | 中 | 对应你现在 PickPlace |
| Square / NutAssembly | 插入/装配 | 高 | 体现接触和精细操作 |
| ToolHang / Transport | 长时序、多阶段 | 高 | 很适合 T-RO 级别扩展 |
2. ManiSkill:适合多任务泛化和更复杂操作
ManiSkill 是基于 SAPIEN 的开源机器人仿真和训练框架,重点是 manipulation skills,并且现在发展很快,适合做多任务、多物体、不同机器人和高效仿真训练。官方说明它是 open-source robot simulation and training framework,focus on manipulation skills。
常见任务包括:
| 任务 | 类型 | 适合你的点 |
|---|---|---|
| PickCube / PickSingle | 抓取 | 对应基础示教学习 |
| StackCube | 长时序 | 验证局部 prior 是否能帮助多阶段任务 |
| PushCube | 接触推动 | 对应你现在 PandaPush |
| PegInsertion | 精细插入 | 验证安全、接触、失败恢复 |
| TurnFaucet / OpenCabinet | 约束操作 | 验证支持分布偏移和人类干预 |
3. Meta-World:适合快速跑很多任务,但机器人真实感弱一些
Meta-World 是多任务/元强化学习领域非常常用的 benchmark,包含 50 个机器人操作任务。它的优势是任务多、运行相对轻量,适合做"多任务泛化"表格;缺点是物理真实性和示教学习标准化程度不如 robosuite/robomimic。Meta-World 论文将其定义为 50 个机器人 manipulation tasks 的 benchmark。
你可以用它做:
Push
PickPlace
DoorOpen
DrawerOpen
ButtonPress
PegInsertion
4. RLBench:适合长时序、视觉、多任务和少样本示教
RLBench 是机器人学习里很常用的长时序、多任务、视觉 benchmark。它包含 100 个手工设计任务,任务从简单 reaching、door opening 到 opening oven and placing tray 这种多阶段任务;它提供 proprioceptive、RGB、depth、segmentation 等多模态观测,并且每个任务可以通过 motion planner 生成大量 demonstrations。
常见任务包括:
| 任务 | 类型 | 适合你的点 |
|---|---|---|
| PickAndLift | 基础抓取 | 少量示教启动 |
| OpenDrawer / PutItemInDrawer | 约束 + 长时序 | 支持偏移、人类干预 |
| StackBlocks | 多阶段 | action prior / subtask prior |
| CloseJar | 接触/约束 | 精细操作 |
| PlaceIntoShapeSorter | 精细放置 | 失败恢复 |
5. CALVIN:适合语言条件、长时序、多步任务
CALVIN 全称是 Composing Actions from Language and Vision,是一个 language-conditioned long-horizon manipulation benchmark。它的目标是让机器人根据语言指令和视觉观测完成长时序任务。官方说明它是 open-source simulated benchmark,用于学习 long-horizon language-conditioned tasks。
它适合:
语言指令 + 多步操作 + 长时序组合任务
6. LIBERO:适合 lifelong learning、多任务迁移和 VLA 方向
LIBERO 是面向 lifelong robot learning 的 benchmark,包含 Spatial、Object、Goal、Long 等 suite,并提供 LIBERO-100 这类多任务数据集。官方说它是 tailored to lifelong robot learning,核心关注 knowledge transfer。
它适合:
| Suite | 作用 |
|---|---|
| LIBERO-Spatial | 空间关系变化 |
| LIBERO-Object | 物体变化 |
| LIBERO-Goal | 目标变化 |
| LIBERO-Long | 长时序任务 |
| LIBERO-100 | 大规模多任务学习 |
7. DROID:真实世界大规模机器人示教数据
DROID 是近几年非常重要的真实机器人 manipulation 数据集。官方介绍它包含 76k demonstration trajectories / 350h interaction data,覆盖 564 scenes 和 86 tasks,由 50 个数据采集者跨多个地区采集。
它的优势是:
真实世界、多场景、多任务、多采集者、大规模
它适合:
- 训练视觉 encoder;
- 预训练检索特征 ψ(o)\psi(o)ψ(o);
- 分析 demonstration quality;
- 做 offline prior memory;
- 做真实数据上的离线泛化测试。
但它不适合直接证明你的 online human intervention 机制,因为 DROID 是已经采好的离线数据,不包含你自己部署过程中"何时请求人类、何时接管、接管前风险片段"的闭环实验。
8. BridgeData V2:真实数据泛化和多机构迁移
BridgeData V2 是 Berkeley/Rail 系列的大规模真实机器人数据集,包含约 60k 条机器人操作轨迹,覆盖 24 个环境,支持 goal image 或自然语言条件的多任务学习。官方强调它用于 scalable robot learning,并且技能可以泛化到新物体、新环境和跨机构场景。
它适合:
- 预训练视觉/语言条件策略;
- 做 goal-conditioned policy;
- 做真实数据上的 prior retrieval;
- 验证你的方法是否能利用外部真实示教库。
但和 DROID 一样,它主要是离线数据集,不能单独证明 online intervention。
9. FurnitureBench:最像 T-RO/IJRR 的真实长时序 benchmark,但难度最高
FurnitureBench 是真实世界家具装配 benchmark,目标是提供可复现的 long-horizon complex manipulation 任务。它提供 200+ 小时预采集数据、5000+ demonstrations、3D printable furniture models、真实环境搭建指南和 FurnitureSim 仿真器。
它的特点是:
真实机器人
长时序
装配任务
可复现硬件
有示教数据
有仿真器
这非常适合 T-RO/IJRR,但难度也很高。你如果能在 FurnitureBench 上做出结果,会很有说服力;但如果现在刚从会议版扩展,不建议第一阶段就上它。