人类数据 | 行为克隆 | 机器人学习的未来

Data-driven: 调了几个月的算法不如别人两天用模型训的效果好
Behavior cloning works：只要数据足够好，BC 可以作为很强的 baseline，不需要追求 RL
Human data 是机器人的 GPT moment 基础，类似 LLM 依赖互联网人类语言数据，机器人需要人类在物理世界留下的操作数据
三层数据模态 ：
- 第一层（世界改变）：人和机器人没有区别
- 第二层（交互）：人和机器人有一定差距但可以学习
- 第三层（控制）：差距最大，需要硬件配合
第一人称数据是 scalable 的关键，通过设备（Meta 眼镜等）可以采集大量高质量数据
硬件瓶颈大于算法，大部分人卡在机器人硬件而不是数据采集
Full stack 是唯一出路，硬件、算法、数据整个系统都要抓
数据需要 1 亿小时量级，现在最大约 10-20 万小时，还差 100 倍
非刻意数据价值高但难采集，需要证明非刻意数据有用后，才能形成生态
学术界需要更多基础研究，不能只追着工业界跑，需要搞清楚什么样的数据有用、怎么用

Danfei Xu - roboticist

从早年折腾单片机小车，到在斯坦福从零搭建 robot learning 系统，再到如今思考 human data 如何成为机器人学习的底层燃料，他始终认为这是一个完整全栈问题，而非单点算法

interest driven: 不想干的事只投入 0% 精力，想干的事投入 50%-100%

从 Vision 到 Robotics

当时有两种主流方向：

Vision-centric：GraspNet 等工作，把 robotics 当成 vision problem 来做
RL（强化学习）：AlphaGo 之后 RL 变得很 work，大家觉得只要 scale up 就能成功

两种思维模式：

Prior is a great thing：需要给系统输入尽可能多的 prior（structures、neuro symbolic、program dynamics）
Supervised learning is not scalable：认为机器人需要自己学，不能让人教

从 Task and Motion Planning 到 Behavior Cloning

早期做 TAMP（Task and Motion Planning）：想做 demonstration in, action out，一条 episode 做 end-to-end learning。后来发现 OpenAI 做了类似的工作，他加入更多 structure prior，变成了 TAMP
TPMP ：对无法搜索的巨大空间做 decomposition，把 local problems 分解后再连接
局限性 ：人的 structure 会变成解决能力的上限天花板，就像 Bitter Lesson------你加的 structure 迟早会被 learning 追上

转折点：DeepMind

2019 年夏天去 DeepMind 做 generative imitation learning 的 intern
看到了 behavior cloning 真的 works：他们有很好的数据采集系统（用 space mouse 做 teleoperation），数据质量很高。如果把 suboptimal 数据都过滤掉，直接做 BC，它可以做大部分任务，是一个 competitive baseline
为什么 DeepMind 没有大力做 BC ：他们的 flagship product 或 flagship research 都在 RL，所以强行把 BC 压下去。BC 在当时整个 community 看来是 not political correct------"机器人需要自己学，不能让人教"

"看了这些以后觉得 BC 这么 work，为什么不干 BC？"

Behavior Cloning

什么是机器人行为克隆（Behavior Cloning）

把机器人当作一个强监督学习问题：直接给他 demo 数据------用 iPhone 或 VR controller 控制机器人，同时记录：

看到的图像（所有 camera image）
控制指令（control command）

把这些作为 (x, y) 输入给大模型或小模型，学习一个 control policy

为什么当时社区看不上 BC

Efficiency error（复合误差）：BC 会错误累积
Supervise learning is not scalable：需要自己学，不能让人教
RL 的狂热：AlphaGo 让大家觉得 RL 可以解决一切问题

Danfei 和 Jia 的 BC 工作

2019 年：和 Jia 在 Franka Panda 上做了 BC
搭了一套完整的 teleoperation 系统 ：做了很多拍脑袋的决定
- 给机器人装了一个 wrist camera（当时没人做）
- 用 ResNet 18-1 8 当 encoder
- 用了 Spatial Softmax
- 加上 RNN 保留 history
结果：能学习 30 秒的复杂任务（比如把烤箱里的盘子拿出来关上烤箱再放回去），这是当时没人见过的水平
为了发 paper 不得不加别的 novelty：他们虽然坚信 BC works，但为了 paper 能中，必须加其他东西

"每一个博士生听到'为了让 paper 能中，我们想一些其他的 novelty'都能共情。"

当时学术界的困境

大家都在做 RL、offline RL、generative RL，BC 被忽视
即使他们做了 BC，也没有太大影响，因为 COVID 爆发，robot access 没了，只能做 DAgger
他们距离 ALOHA 不太远：Danfei 认为他们的系统更好，只是当时只有两个人，没有时间完成系统性实验

人类数据（Human Data）

从遥操作数据到人类数据

遥操作数据（Teleoperation data） 是现在主流的机器人数据
人类数据有多种模态 ：
- 第一人称视角：GoPro、Meta Glasses 等
- 第三人称视角：从旁边看
- 多视角
- 带 IMU/VIO 的第一人称
- 触觉（tactile）
- 音频、语言、嗅觉等

EgoMimic 项目

背景：2022 年中开始，2023 年中完成
最初：一个博士生 Simmer 想做第一人称视角数据，认为这是最可扩展的（most scalable）
数据采集 ：
1. 最初用 VR + Leap Motion（和 2015 年做的一模一样），但 calibration 非常不稳定，效果很差
2. 恰好 Meta 做 E4D 项目有个眼镜（完美的第一人称设备），有 hand tracking、定位、RGN 数据，才搞定数据采集
3. 数据采集花了 4-5 个月才搞通
机器人 ：因为没有机器人符合人类的身体结构（需要像人一样的双手、肩、躯体关节，相机放在头部位置），Danfei 自己设计并搭了一个双臂机器人------买了各种铝部件，自己焊接组装
Danfei 负责机器人硬件，另一个做数据采集

为什么转向人类数据

遥操作数据本身也不完美：每台机器人的底层控制器不同（比如改了一点 gain），整个控制行为完全不一样，存在很大的 gap
核心：

"人和机器人和机器人之间的差距真的有那么大吗？如果我们能把人的动作转换成可用的 action，把 perception 转换成可用的 policy input，直接把人类数据当机器人数据用------这件事不是不可能的。"
观点：

"Human 只是 another robot，或者说 robot 只是 another human。如果你在人身上挂足够多的 sensor，其实你可以把一个人变成一个机器人。"

从``人类视频数据中学习什么

将人机交互问题分解为三个子问题：

想让世界怎么改变（how the world should change）：这个人和机器人没有任何区别，只要机器人足够有能力做这件事
本体怎么让世界产生这些改变：比如推哪里、拿杯子哪里可以把它拎起来
本体怎么产生这些动作：比如扔球，需要每个关节产生足够的力把球扔成特定轨迹

第三层最难：从视频数据里学不出来，因为人的驱动是肌肉电信号，无法和电机关节一一对应
边界取决于第三层 ：机器人本体控制能力能多接近人类展现的状态

第一人称 vs 第三人称视频

第三人称数据 （YouTube）非常 scalable，但极难处理：
- 数据分布需要和机器人数据尽可能一样
- 人和机器人的 camera layout 不同
- 提取有用的数据部分非常困难
第一人称数据：有设备（Meta 眼镜等）和人愿意配合的话，反而没有那么难

"0 到 1 这件事如果有一个人能做出来，1 到 99 发展速度会非常快。但大家都会选择做不确定性更低的事情。"

数据模态分析

为什么 SLAM/VIO 对人类数据很重要

两种理解人类数据的方式：

Event modeling：只需要视频数据
把人当机器人：human as another robot，需要 capture 所有 input/output，包括 action label

Action 是什么：手在空间中的位置（kinematic）
怎么取：hand estimation 从第一人称看手的位置
还需要知道手在哪：通过 VIO 和 IMU 做 self-localization
SLAM 是把人当机器人这条技术路线的关键：需要 capture 尽可能多的 action label

为什么 SLAM 很难

Sub-centimeter level 的 SLAM 只在 VR/AR 公司存在（Meta、Apple 等）和少数 driving 公司
眼镜面临的挑战：6 个 camera 之间关系会变化（温度导致镜头形变），需要做 online calibration 考虑热效应
Apple Vision Pro 的例子：Danfei 戴着它在大街上走，走了两个 block 回来定位还在

"这是一个纯工程问题，没有需要 invent nextGPT 的东西。有钱有资源、愿意花时间磨细节，绝对可以做出来。"

触觉数据（Tactile）

问题：触觉传感器太不统一了------光学、压感、电阻、磁场...太多不同传感器，每种属性都不一样
现状：没有 RGB camera 那样标准化的表示
重要性：人是 friction engine，给世界产生力来改变世界状态，触觉是最直接的（虽然 imperfect）力测量
可能的发展：用 RGB camera 替代------比如 wrist camera 可以看到手和物体的交互

`数据模态排序`（从最不重要到最重要）

Danfei 给出了一个排序：

嗅觉：最不重要，not there yet
音频：第三要放弃的，因为采集设备太粗糙，定位 audio 来源很难
语言和 whole-body pose：取决于你相信什么，不知道怎么用
Tactile 和 whole-body pose：倒数第二重要
Language annotation：第三重要（给数据加标注）
Hand pose：第二重要
Video：第一重要

UMI（Universal Manipulation Interface）

什么是 UMI：把你的手换成机械臂的 gripper，gripper 有自己的状态估计（camera、定位），知道自己开合状态，你用人手来操作这个 gripper
本质：把人的手退化成一个爪，但有非常好的状态估计
好处：
1. 有精确的状态工具（camera、定位）
2. 直接被装在机器人上，没有 sim-to-real gap（deployment 和 data collection 之间没有 gap）
和纯人类数据的区别 ：
- 操作空间不同（人的手有很多 DOF，机器人有限制）
- transfer gap 取决于机器人手有多像人手

数据类型融合趋势

UMI、teleoperation、纯人类数据会变得 indistinguishable
General Robotics 的例子：他们的 gripper 跟人手很像，就是在手部挂了两个 fingertips，上面有 camera。如果把 fingertips 拿掉就变成纯人类数据
关键：需要 controller 速度跟人差不多，才能做 zero-shot transfer

"如果要做 human data 到 robot 的 transfer，中间的 gap 没有那么大。我需要一个比现有夹爪自由度稍多（22 DOF）、执行速度更快的机械臂，配合好的 controller，就能做到 5 米级别的 transfer。"

硬件瓶颈

Transfer 卡在硬件上：大部分人卡在机器人硬件，不是数据采集
机械臂+灵巧手+执行器速度需要达到接近人类水平
需要把东西串起来 ：硬件整合是关键

Human Data 与 Humanoid

Hardware Lottery vs Data Lottery

Hardware Lottery：如果没有 GPU deep learning，deep learning 可能永远不会 work
问题：机器人未来的突破是 hardware lottery 还是 data lottery？
答案：互相成就
- 没有 human data，humanoid 的价值有限
- 没有 humanoid（足够像人的身体），human to robot transfer 会更难
至少需要上半身像人：双臂 + 五指机器人，有移动能力（至少 omnidirectional）

是否会被锁死在人类水平？

不会：
1. 精细操作只是 human data 的一部分
2. 另一部分是 HRI（human-robot interaction）------人和人交互，这是遥操作无法采集的数据
可以 upscale：如果机器人有更多 DOF，可以模拟少 DOF 的人类
长期愿景：cross GPT-2/3 moment 之后，可能可以 tackle super-human 任务

"我们今天还是以人为中心的 data。如果我们要造乌鸦、松鼠、章鱼的智能，可能也需要给他们带 sensor。但如果我们能达到人类的 physical intelligence，肯定是一个好的 start。"

愿景：从 Human Data 能学到什么级别智能

上限：无法判断是人还是机器人

"上限是 human life robot indistinguishable from humans。无法判别它是人还是机器人------human level Turing test。可以像人一样在物理世界交互，在任务规划层面做到这些。"

不只是精细操作 ，还有 HRI：和他人交互
本质上是想 behavior clone a human

类比 LLM

今天的 LLM 其实也是 behavior clone human 的语言数据。所以：

"你要做的是 human level behavior cloning。我们还没有达到第一步。"

数据量估计

目标：约 1 亿小时的人类数据
现在最大的数据集：10-20 万小时
差距：还有 100 倍
成本：如果一小时几十刀，对学术界是天文数字
关键：需要数据供应商和 research 机构紧密合作

数据基础设施的挑战

语言模型、视频模型有成熟的 infrastructure（MP4 等）
人类数据现在连什么模态、什么 sensor 都没有 converge
如果直接 push 到 1 亿小时数据，可能最后变成浪费
当前状态：高速前行的火车，前面几个人在疯狂搭铁轨，后面资本开始往车里加油加柴

非刻意数据的价值

为什么需要不经意采集的数据

人类的 physical intelligence 很implicit：我们不会刻意想这件事
做任务时不会完整展示物理常识：比如用脚开门、用肘关抽屉
刻意采集会丢失这些 implicit knowledge：数据采集公司让你完成任务时，你可能不会做这些 in-between 的动作

需要的平衡

刻意数据 ：证明 something is possible
大量非刻意数据：真实生活数据
最终类似 Tesla 的 data filtering：知道什么样的数据是重要的

挑战

数据供应商不知道怎么采集非刻意数据
需要先证明非刻意数据有用，才能让更多人参与采集

Full Stack 的重要性

为什么社区低估 STEM

robot learning 还在发展阶段：整个 ecosystem 不成熟
大家没有对系统有足够深的认知
导致 progress 比较慢

Full Stack 是什么

不是什么都自己造，是知道什么东西对最终 outcome 有影响
对整个 pipeline 的每个细节有足够深的理解
Buy vs Build ：
- 可以买所有东西
- 但你的 integration 要足够深
- 对系统有足够理解后，才能选择买还是自己造

必须 in-house 的部分

整个 evaluation/train loop：post training、pretraining data filtering、close loop
数据质量理解：如果数据来自 vendor，对你来说是黑箱------怎么采的、synchronization 做得好不好

"你需要 care about whole thing。你需要 know everything。No work is beneath anyone

Modeling 的偏好

Long Context

如果你要用 context 来解释 action，没有足够 context 就没法解释为什么做这件事
只能把 action 当做 very broad distribution，可以做 A 也可以做 B

System One vs System Two

不会说话的人（婴儿）和物理世界交互，不会用 system one/two 解释自己行为
规划（planning）和操作可能在一个另外的空间里做
STEM one vs STEM two 现在被 taking quite literally：LM grounding 到 action 距离太远
如果有足够数据，可以 learn from scratch 那个 space

当前智能差距

现在离人类的 planning 能力差得远
Bezier 的乌鸦实验：会用工具通过多层管道获取食物，这是 zero-shot 规划能力
现在机器人能做到：不同颜色杯子可以倒水等，但 Bezier 级别的任务还做不到

建议

PhD

尽早培养自己的 taste：觉得什么是对的、什么是自己相信的
把对整个系统的理解做出来：不要只 care about one thing
最开始做比较 full stack 的东西：到第二年再选择做 open-ended 问题还是解决具体问题

如何判断方向

看一些好的 research 的轨迹 ：理解他们为什么做这件事，而不是他们做了什么
学习的是 grading，不是具体技术
想清楚很多不同的路，大家为什么做它或者不做它
需要耐心：现在业界有 winner（具体指代未明确），大家可能没那么多耐心培养 taste

当前读 PhD 的难度

更难：因为 fomo 太高，不跟主流就会被拉 out
但资源变多了：工具（clone code 等）让研究更容易
专注变难了：如果选择正确，做事容易很多

对 10 年前的自己说什么

"勇敢地做自己想做的事------what's the loose?"

逻辑顺畅，收获很多的一个访谈

附录

术语	解释
Behavior Cloning (BC)	行为克隆，把机器人当作`强监督学习`问题，直接用人类演示数据训练控制策略
Human Data	人类数据，用于机器人学习的人类操作数据，模态包括`第一人称视频`、hand pose、触觉等
EgoMimic	一个用第一人称视频数据做 robot learning 的项目
UMI (Universal Manipulation Interface)	通用操作接口，用人手操作类似 gripper 的设备采集数据
SLAM	即时定位与地图构建，用于捕捉手部在空间中的位置
VIO	Visual-Inertial Odometry，视觉惯性里程计
Tactile	触觉数据
Full Stack	全栈，对机器人硬件、算法、数据`整个 pipeline` 都要有深入理解
Task and Motion Planning (TAMP)	任务与运动规划
Teleoperation	遥操作，用控制设备远程操作机器人
Sim-to-Real	仿真到现实的迁移
DAgger	Dataset Aggregation，强化学习中的策略迭代方法

论文整理

强化学习与模仿学习

Real-Time Iteration Scheme for Diffusion Policy
扩散策略的实时迭代优化方案
ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning
ASkDAgger：面向交互式模仿学习的主动技能级数据聚合方法
Analyzing the Impact of Multimodal Perception on Sample Complexity and Optimization Landscapes in Imitation Learning
多模态感知对模仿学习样本复杂度与优化曲面的影响分析
TrajEvo: Trajectory Prediction Heuristics Design via LLM-driven Evolution
TrajEvo：基于大模型进化算法的轨迹预测启发式策略设计
BTPG-max: Achieving Local Maximal Bidirectional Pairs for Bidirectional Temporal Plan Graphs
BTPG-max：双向时序规划图的局部最优双向配对算法

机器人操控与具身智能

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
Genie：面向机器人操控的统一世界基础平台
Robust adaptive fuzzy sliding mode control for trajectory tracking for of cylindrical manipulator
圆柱机械臂轨迹跟踪的鲁棒自适应模糊滑模控制
CleanUpBench: Embodied Sweeping and Grasping Benchmark
CleanUpBench：具身清扫与抓取任务基准数据集
Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
学会感知与行动：面向机器人操控的任务感知视角规划
FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction
FCBV-Net：基于特征条件双手价值预测的类别级机器人衣物抚平算法
A Vision-Based Collision Sensing Method for Stable Circular Object Grasping with A Soft Gripper System
面向柔性夹爪稳定抓取圆形物体的视觉碰撞检测方法
Benchmarking Shortcutting Techniques for Multi-Robot-Arm Motion Planning
多机械臂运动规划捷径优化技术基准评测
Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction
迈向具身智能体AI：大语言/视觉语言模型驱动的机器人自主交互综述与分类
GhostShell: Streaming LLM Function Calls for Concurrent Embodied Programming
GhostShell：面向并发具身编程的流式大模型函数调用框架

感知、定位与状态估计

A Multi-view Landmark Representation Approach with Application to GNSS-Visual-Inertial Odometry
适用于GNSS视觉惯性里程计的多视角地标表征方法
Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control
融合视觉-语言-动作模型的信息论图融合算法，用于策略推理与双机器人协同控制
Robots can defuse high-intensity conflict situations
机器人在高强度冲突场景中的缓和应用研究

导航与运动规划

Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling
基于共形不确定性处理的人群导航通用安全策略研究
MAG-Nav: Language-Driven Object Navigation Leveraging Memory-Reserved Active Grounding
MAG-Nav：结合记忆留存主动定位的语言驱动物体导航算法
Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots
面向移动机器人自主迷宫导航的分层深度确定性策略梯度算法
Optimal Planning for Multi-Robot Simultaneous Area and Line Coverage Using Hierarchical Cyclic Merging Regulation
基于分层循环合并策略的多机器人区域与线路协同覆盖最优规划
DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model
DistillDrive：基于同构异源规划模型的端到端多模态自动驾驶知识蒸馏
Towards Human-Centric Evaluation of Interaction-Aware Automated Vehicle Controllers: A Framework and Case Study
面向交互感知自动驾驶控制器的人本评估框架与实例研究

人机交互与协作

Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation
人机协同操控场景下的混合主动式对话交互
Do Robots Really Need Anthropomorphic Hands?
机器人真的需要拟人化机械手吗？
Dancing with a Robot: An Experimental Study of Child-Robot Interaction in a Performative Art Setting
与机器人共舞：艺术表演场景中的儿童机器人交互实验研究
From Canada to Japan: How 10,000 km Affect User Perception in Robot Teleoperation
跨越万里：一万公里距离对机器人遥操作用户感知的影响研究
Examining the legibility of humanoid robot arm movements in a pointing task
指向任务中人形机械臂运动轨迹的可辨识度研究
On the causality between affective impact and coordinated human-robot reactions
情感影响与人机协同行为反应的因果关系探究
Affecta-Context: The Context-Guided Behavior Adaptation Framework
Affecta-Context：上下文引导的机器人行为自适应框架
INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM
INTENTION：结合交互直觉与视觉语言模型的人形机器人运动意图推理