示教学习强化学习用的标准数据集

层级	平台/数据集	目的	推荐任务

|----------|---------------------------|----------------------------------------------|------------------------------------------------------|
| 基础仿真 | robosuite / robomimic | 证明方法在标准机器人操作任务上有效，便于和 BC、IQL、QFilter、SAC 等比较 | Lift, Can, Square, Transport, PickPlace, NutAssembly |

|-----------|----------------------------|-------------------------------|------------------------------------------------------------------|
| 多任务泛化 | Meta-World 或 ManiSkill | 证明不是只对 PandaPush/PickPlace 有效 | Push, PickPlace, DoorOpen, DrawerOpen, ButtonPress, PegInsertion |

|--------------|----------------------|----------------------------------------------|---------------------------------------------------------------------------------------|
| 长时序/视觉任务 | RLBench / CALVIN | 证明 autonomy boundary 和 local prior 对长时序任务有价值 | StackBlocks, PutItemInDrawer, OpenDrawer, CloseJar, PickAndLift, PlaceIntoShapeSorter |

|--------------|------------------------------------|------------------|---------------------------------------------------------------------|
| 真实/准真实验证 | 真实 Franka/UR5 或 FurnitureBench | 证明 T-RO 级机器人部署价值 | Real Push, Real Pick-and-Place, DrawerOpen, PegInsertion / Assembly |

1. robosuite / robomimic：最适合作为你的主实验基础平台

robosuite 是基于 MuJoCo 的机器人操作仿真框架，提供一组可复现的机器人操作 benchmark 环境。robomimic 则是专门面向 robot learning from demonstration 的框架，提供示教数据集、离线学习算法和统一评测流程。robomimic 官方定位就是提供机器人操作领域的 demonstration datasets 和 learning algorithms，目标是支持公平、可复现的 robot learning benchmark。

常见任务包括：

任务	类型	难度	适合你的点
Lift	基础抓取	低	用来快速验证代码
Can / PickPlace	抓取放置	中	对应你现在 PickPlace
Square / NutAssembly	插入/装配	高	体现接触和精细操作
ToolHang / Transport	长时序、多阶段	高	很适合 T-RO 级别扩展

2. ManiSkill：适合多任务泛化和更复杂操作

ManiSkill 是基于 SAPIEN 的开源机器人仿真和训练框架，重点是 manipulation skills，并且现在发展很快，适合做多任务、多物体、不同机器人和高效仿真训练。官方说明它是 open-source robot simulation and training framework，focus on manipulation skills。

常见任务包括：

任务	类型	适合你的点
PickCube / PickSingle	抓取	对应基础示教学习
StackCube	长时序	验证局部 prior 是否能帮助多阶段任务
PushCube	接触推动	对应你现在 PandaPush
PegInsertion	精细插入	验证安全、接触、失败恢复
TurnFaucet / OpenCabinet	约束操作	验证支持分布偏移和人类干预

3. Meta-World：适合快速跑很多任务，但机器人真实感弱一些

Meta-World 是多任务/元强化学习领域非常常用的 benchmark，包含 50 个机器人操作任务。它的优势是任务多、运行相对轻量，适合做"多任务泛化"表格；缺点是物理真实性和示教学习标准化程度不如 robosuite/robomimic。Meta-World 论文将其定义为 50 个机器人 manipulation tasks 的 benchmark。

你可以用它做：

复制代码

Push
PickPlace
DoorOpen
DrawerOpen
ButtonPress
PegInsertion

4. RLBench：适合长时序、视觉、多任务和少样本示教

RLBench 是机器人学习里很常用的长时序、多任务、视觉 benchmark。它包含 100 个手工设计任务，任务从简单 reaching、door opening 到 opening oven and placing tray 这种多阶段任务；它提供 proprioceptive、RGB、depth、segmentation 等多模态观测，并且每个任务可以通过 motion planner 生成大量 demonstrations。

常见任务包括：

任务	类型	适合你的点
PickAndLift	基础抓取	少量示教启动
OpenDrawer / PutItemInDrawer	约束 + 长时序	支持偏移、人类干预
StackBlocks	多阶段	action prior / subtask prior
CloseJar	接触/约束	精细操作
PlaceIntoShapeSorter	精细放置	失败恢复

5. CALVIN：适合语言条件、长时序、多步任务

CALVIN 全称是 Composing Actions from Language and Vision，是一个 language-conditioned long-horizon manipulation benchmark。它的目标是让机器人根据语言指令和视觉观测完成长时序任务。官方说明它是 open-source simulated benchmark，用于学习 long-horizon language-conditioned tasks。

它适合：

复制代码

语言指令 + 多步操作 + 长时序组合任务

6. LIBERO：适合 lifelong learning、多任务迁移和 VLA 方向

LIBERO 是面向 lifelong robot learning 的 benchmark，包含 Spatial、Object、Goal、Long 等 suite，并提供 LIBERO-100 这类多任务数据集。官方说它是 tailored to lifelong robot learning，核心关注 knowledge transfer。

它适合：

Suite	作用
LIBERO-Spatial	空间关系变化
LIBERO-Object	物体变化
LIBERO-Goal	目标变化
LIBERO-Long	长时序任务
LIBERO-100	大规模多任务学习

7. DROID：真实世界大规模机器人示教数据

DROID 是近几年非常重要的真实机器人 manipulation 数据集。官方介绍它包含 76k demonstration trajectories / 350h interaction data，覆盖 564 scenes 和 86 tasks，由 50 个数据采集者跨多个地区采集。

它的优势是：

复制代码

真实世界、多场景、多任务、多采集者、大规模

它适合：

训练视觉 encoder；
预训练检索特征 ψ(o)\psi(o)ψ(o)；
分析 demonstration quality；
做 offline prior memory；
做真实数据上的离线泛化测试。

但它不适合直接证明你的 online human intervention 机制，因为 DROID 是已经采好的离线数据，不包含你自己部署过程中"何时请求人类、何时接管、接管前风险片段"的闭环实验。

8. BridgeData V2：真实数据泛化和多机构迁移

BridgeData V2 是 Berkeley/Rail 系列的大规模真实机器人数据集，包含约 60k 条机器人操作轨迹，覆盖 24 个环境，支持 goal image 或自然语言条件的多任务学习。官方强调它用于 scalable robot learning，并且技能可以泛化到新物体、新环境和跨机构场景。

它适合：

预训练视觉/语言条件策略；
做 goal-conditioned policy；
做真实数据上的 prior retrieval；
验证你的方法是否能利用外部真实示教库。

但和 DROID 一样，它主要是离线数据集，不能单独证明 online intervention。

9. FurnitureBench：最像 T-RO/IJRR 的真实长时序 benchmark，但难度最高

FurnitureBench 是真实世界家具装配 benchmark，目标是提供可复现的 long-horizon complex manipulation 任务。它提供 200+ 小时预采集数据、5000+ demonstrations、3D printable furniture models、真实环境搭建指南和 FurnitureSim 仿真器。

它的特点是：

复制代码

真实机器人
长时序
装配任务
可复现硬件
有示教数据
有仿真器

这非常适合 T-RO/IJRR，但难度也很高。你如果能在 FurnitureBench 上做出结果，会很有说服力；但如果现在刚从会议版扩展，不建议第一阶段就上它。