人类数据 | 行为克隆 | 机器人学习的未来

  1. Data-driven: 调了几个月的算法不如别人两天用模型训的效果好
  2. Behavior cloning works:只要数据足够好,BC 可以作为很强的 baseline,不需要追求 RL
  3. Human data 是机器人的 GPT moment 基础,类似 LLM 依赖互联网人类语言数据,机器人需要人类在物理世界留下的操作数据
  4. 三层数据模态
    • 第一层(世界改变):人和机器人没有区别
    • 第二层(交互):人和机器人有一定差距但可以学习
    • 第三层(控制):差距最大,需要硬件配合
  5. 第一人称数据是 scalable 的关键,通过设备(Meta 眼镜等)可以采集大量高质量数据
  6. 硬件瓶颈大于算法,大部分人卡在机器人硬件而不是数据采集
  7. Full stack 是唯一出路,硬件、算法、数据整个系统都要抓
  8. 数据需要 1 亿小时量级,现在最大约 10-20 万小时,还差 100 倍
  9. 非刻意数据价值高但难采集,需要证明非刻意数据有用后,才能形成生态
  10. 学术界需要更多基础研究,不能只追着工业界跑,需要搞清楚什么样的数据有用、怎么用

Danfei Xu - roboticist

从早年折腾单片机小车,到在斯坦福从零搭建 robot learning 系统,再到如今思考 human data 如何成为机器人学习的底层燃料,他始终认为这是一个完整全栈问题,而非单点算法

  • interest driven: 不想干的事只投入 0% 精力,想干的事投入 50%-100%

从 Vision 到 Robotics

当时有两种主流方向:

  1. Vision-centric:GraspNet 等工作,把 robotics 当成 vision problem 来做
  2. RL(强化学习):AlphaGo 之后 RL 变得很 work,大家觉得只要 scale up 就能成功

两种思维模式:

  • Prior is a great thing:需要给系统输入尽可能多的 prior(structures、neuro symbolic、program dynamics)
  • Supervised learning is not scalable:认为机器人需要自己学,不能让人教

从 Task and Motion Planning 到 Behavior Cloning

  • 早期做 TAMP(Task and Motion Planning):想做 demonstration in, action out,一条 episode 做 end-to-end learning。后来发现 OpenAI 做了类似的工作,他加入更多 structure prior,变成了 TAMP
  • TPMP :对无法搜索的巨大空间做 decomposition,把 local problems 分解后再连接
  • 局限性 :人的 structure 会变成解决能力的上限天花板,就像 Bitter Lesson------你加的 structure 迟早会被 learning 追上

转折点:DeepMind

  • 2019 年夏天去 DeepMind 做 generative imitation learning 的 intern
  • 看到了 behavior cloning 真的 works:他们有很好的数据采集系统(用 space mouse 做 teleoperation),数据质量很高。如果把 suboptimal 数据都过滤掉,直接做 BC,它可以做大部分任务,是一个 competitive baseline
  • 为什么 DeepMind 没有大力做 BC :他们的 flagship product 或 flagship research 都在 RL,所以强行把 BC 压下去。BC 在当时整个 community 看来是 not political correct------"机器人需要自己学,不能让人教"

"看了这些以后觉得 BC 这么 work,为什么不干 BC?"


Behavior Cloning

什么是机器人行为克隆(Behavior Cloning)

把机器人当作一个强监督学习问题:直接给他 demo 数据------用 iPhone 或 VR controller 控制机器人,同时记录:

  • 看到的图像(所有 camera image)
  • 控制指令(control command)

把这些作为 (x, y) 输入给大模型或小模型,学习一个 control policy

为什么当时社区看不上 BC

  1. Efficiency error(复合误差):BC 会错误累积
  2. Supervise learning is not scalable:需要自己学,不能让人教
  3. RL 的狂热:AlphaGo 让大家觉得 RL 可以解决一切问题

Danfei 和 Jia 的 BC 工作

  • 2019 年:和 Jia 在 Franka Panda 上做了 BC
  • 搭了一套完整的 teleoperation 系统 :做了很多拍脑袋的决定
    • 给机器人装了一个 wrist camera(当时没人做)
    • 用 ResNet 18-1 8 当 encoder
    • 用了 Spatial Softmax
    • 加上 RNN 保留 history
  • 结果:能学习 30 秒的复杂任务(比如把烤箱里的盘子拿出来关上烤箱再放回去),这是当时没人见过的水平
  • 为了发 paper 不得不加别的 novelty:他们虽然坚信 BC works,但为了 paper 能中,必须加其他东西

"每一个博士生听到'为了让 paper 能中,我们想一些其他的 novelty'都能共情。"

当时学术界的困境

  • 大家都在做 RL、offline RL、generative RL,BC 被忽视
  • 即使他们做了 BC,也没有太大影响,因为 COVID 爆发,robot access 没了,只能做 DAgger
  • 他们距离 ALOHA 不太远:Danfei 认为他们的系统更好,只是当时只有两个人,没有时间完成系统性实验

人类数据(Human Data)

从遥操作数据到人类数据

  • 遥操作数据(Teleoperation data) 是现在主流的机器人数据
  • 人类数据有多种模态
    • 第一人称视角:GoPro、Meta Glasses 等
    • 第三人称视角:从旁边看
    • 多视角
    • 带 IMU/VIO 的第一人称
    • 触觉(tactile)
    • 音频、语言、嗅觉

EgoMimic 项目

  • 背景:2022 年中开始,2023 年中完成
  • 最初:一个博士生 Simmer 想做第一人称视角数据,认为这是最可扩展的(most scalable)
  • 数据采集
    1. 最初用 VR + Leap Motion(和 2015 年做的一模一样),但 calibration 非常不稳定,效果很差
    2. 恰好 Meta 做 E4D 项目有个眼镜(完美的第一人称设备),有 hand tracking、定位、RGN 数据,才搞定数据采集
    3. 数据采集花了 4-5 个月才搞通
  • 机器人 :因为没有机器人符合人类的身体结构(需要像人一样的双手、肩、躯体关节,相机放在头部位置),Danfei 自己设计并搭了一个双臂机器人------买了各种铝部件,自己焊接组装
  • Danfei 负责机器人硬件,另一个做数据采集

为什么转向人类数据

  • 遥操作数据本身也不完美:每台机器人的底层控制器不同(比如改了一点 gain),整个控制行为完全不一样,存在很大的 gap

  • 核心

    "人和机器人和机器人之间的差距真的有那么大吗?如果我们能把人的动作转换成可用的 action,把 perception 转换成可用的 policy input,直接把人类数据当机器人数据用------这件事不是不可能的。"

  • 观点

    "Human 只是 another robot,或者说 robot 只是 another human。如果你在人身上挂足够多的 sensor,其实你可以把一个人变成一个机器人。"

从``人类视频数据中学习什么

将人机交互问题分解为三个子问题:

  1. 想让世界怎么改变(how the world should change):这个人和机器人没有任何区别,只要机器人足够有能力做这件事
  2. 本体怎么让世界产生这些改变:比如推哪里、拿杯子哪里可以把它拎起来
  3. 本体怎么产生这些动作:比如扔球,需要每个关节产生足够的力把球扔成特定轨迹
  • 第三层最难:从视频数据里学不出来,因为人的驱动是肌肉电信号,无法和电机关节一一对应
  • 边界取决于第三层机器人本体控制能力能多接近人类展现的状态

第一人称 vs 第三人称视频

  • 第三人称数据 (YouTube)非常 scalable,但极难处理:
    • 数据分布需要和机器人数据尽可能一样
    • 人和机器人的 camera layout 不同
    • 提取有用的数据部分非常困难
  • 第一人称数据:有设备(Meta 眼镜等)和人愿意配合的话,反而没有那么难

"0 到 1 这件事如果有一个人能做出来,1 到 99 发展速度会非常快。但大家都会选择做不确定性更低的事情。"


数据模态分析

为什么 SLAM/VIO 对人类数据很重要

两种理解人类数据的方式:

  1. Event modeling:只需要视频数据
  2. 把人当机器人:human as another robot,需要 capture 所有 input/output,包括 action label
  • Action 是什么:手在空间中的位置(kinematic)
  • 怎么取:hand estimation 从第一人称看手的位置
  • 还需要知道手在哪:通过 VIO 和 IMU 做 self-localization
  • SLAM 是把人当机器人这条技术路线的关键:需要 capture 尽可能多的 action label

为什么 SLAM 很难

  • Sub-centimeter level 的 SLAM 只在 VR/AR 公司存在(Meta、Apple 等)和少数 driving 公司
  • 眼镜面临的挑战:6 个 camera 之间关系会变化(温度导致镜头形变),需要做 online calibration 考虑热效应
  • Apple Vision Pro 的例子:Danfei 戴着它在大街上走,走了两个 block 回来定位还在

"这是一个纯工程问题,没有需要 invent nextGPT 的东西。有钱有资源、愿意花时间磨细节,绝对可以做出来。"

触觉数据(Tactile)

  • 问题:触觉传感器太不统一了------光学、压感、电阻、磁场...太多不同传感器,每种属性都不一样
  • 现状:没有 RGB camera 那样标准化的表示
  • 重要性:人是 friction engine,给世界产生力来改变世界状态,触觉是最直接的(虽然 imperfect)力测量
  • 可能的发展:用 RGB camera 替代------比如 wrist camera 可以看到手和物体的交互

数据模态排序(从最不重要到最重要)

Danfei 给出了一个排序:

  1. 嗅觉:最不重要,not there yet
  2. 音频:第三要放弃的,因为采集设备太粗糙,定位 audio 来源很难
  3. 语言和 whole-body pose:取决于你相信什么,不知道怎么用
  4. Tactile 和 whole-body pose:倒数第二重要
  5. Language annotation:第三重要(给数据加标注)
  6. Hand pose:第二重要
  7. Video:第一重要

UMI(Universal Manipulation Interface)

  • 什么是 UMI:把你的手换成机械臂的 gripper,gripper 有自己的状态估计(camera、定位),知道自己开合状态,你用人手来操作这个 gripper
  • 本质:把人的手退化成一个爪,但有非常好的状态估计
  • 好处
    1. 有精确的状态工具(camera、定位)
    2. 直接被装在机器人上,没有 sim-to-real gap(deployment 和 data collection 之间没有 gap)
  • 和纯人类数据的区别
    • 操作空间不同(人的手有很多 DOF,机器人有限制)
    • transfer gap 取决于机器人手有多像人手

数据类型融合趋势

  • UMI、teleoperation、纯人类数据会变得 indistinguishable
  • General Robotics 的例子:他们的 gripper 跟人手很像,就是在手部挂了两个 fingertips,上面有 camera。如果把 fingertips 拿掉就变成纯人类数据
  • 关键:需要 controller 速度跟人差不多,才能做 zero-shot transfer

"如果要做 human data 到 robot 的 transfer,中间的 gap 没有那么大。我需要一个比现有夹爪自由度稍多(22 DOF)、执行速度更快的机械臂,配合好的 controller,就能做到 5 米级别的 transfer。"

硬件瓶颈

  • Transfer 卡在硬件上:大部分人卡在机器人硬件,不是数据采集
  • 机械臂+灵巧手+执行器速度需要达到接近人类水平
  • 需要把东西串起来硬件整合是关键

Human Data 与 Humanoid

Hardware Lottery vs Data Lottery

  • Hardware Lottery:如果没有 GPU deep learning,deep learning 可能永远不会 work
  • 问题:机器人未来的突破是 hardware lottery 还是 data lottery?
  • 答案 :互相成就
    • 没有 human data,humanoid 的价值有限
    • 没有 humanoid(足够像人的身体),human to robot transfer 会更难
  • 至少需要上半身像人:双臂 + 五指机器人,有移动能力(至少 omnidirectional)

是否会被锁死在人类水平?

  • 不会
    1. 精细操作只是 human data 的一部分
    2. 另一部分是 HRI(human-robot interaction)------人和人交互,这是遥操作无法采集的数据
  • 可以 upscale:如果机器人有更多 DOF,可以模拟少 DOF 的人类
  • 长期愿景:cross GPT-2/3 moment 之后,可能可以 tackle super-human 任务

"我们今天还是以人为中心的 data。如果我们要造乌鸦、松鼠、章鱼的智能,可能也需要给他们带 sensor。但如果我们能达到人类的 physical intelligence,肯定是一个好的 start。"


愿景:从 Human Data 能学到什么级别智能

上限:无法判断是人还是机器人

"上限是 human life robot indistinguishable from humans。无法判别它是人还是机器人------human level Turing test。可以像人一样在物理世界交互,在任务规划层面做到这些。"

  • 不只是精细操作 ,还有 HRI:和他人交互
  • 本质上是想 behavior clone a human

类比 LLM

今天的 LLM 其实也是 behavior clone human 的语言数据。所以:

"你要做的是 human level behavior cloning。我们还没有达到第一步。"

数据量估计

  • 目标 :约 1 亿小时的人类数据
  • 现在最大的数据集:10-20 万小时
  • 差距:还有 100 倍
  • 成本:如果一小时几十刀,对学术界是天文数字
  • 关键:需要数据供应商和 research 机构紧密合作

数据基础设施的挑战

  • 语言模型、视频模型有成熟的 infrastructure(MP4 等)
  • 人类数据现在连什么模态、什么 sensor 都没有 converge
  • 如果直接 push 到 1 亿小时数据,可能最后变成浪费
  • 当前状态:高速前行的火车,前面几个人在疯狂搭铁轨,后面资本开始往车里加油加柴

非刻意数据的价值

为什么需要不经意采集的数据

  • 人类的 physical intelligence 很implicit:我们不会刻意想这件事
  • 做任务时不会完整展示物理常识:比如用脚开门、用肘关抽屉
  • 刻意采集会丢失这些 implicit knowledge:数据采集公司让你完成任务时,你可能不会做这些 in-between 的动作

需要的平衡

  • 刻意数据 :证明 something is possible
  • 大量非刻意数据:真实生活数据
  • 最终类似 Tesla 的 data filtering:知道什么样的数据是重要的

挑战

  • 数据供应商不知道怎么采集非刻意数据
  • 需要先证明非刻意数据有用,才能让更多人参与采集

Full Stack 的重要性

为什么社区低估 STEM

  • robot learning 还在发展阶段:整个 ecosystem 不成熟
  • 大家没有对系统有足够深的认知
  • 导致 progress 比较慢

Full Stack 是什么

  • 不是什么都自己造,是知道什么东西对最终 outcome 有影响
  • 对整个 pipeline 的每个细节有足够深的理解
  • Buy vs Build
    • 可以买所有东西
    • 但你的 integration 要足够深
    • 对系统有足够理解后,才能选择买还是自己造

必须 in-house 的部分

  • 整个 evaluation/train loop:post training、pretraining data filtering、close loop
  • 数据质量理解:如果数据来自 vendor,对你来说是黑箱------怎么采的、synchronization 做得好不好

"你需要 care about whole thing。你需要 know everything。No work is beneath anyone


Modeling 的偏好

Long Context

  • 如果你要用 context 来解释 action,没有足够 context 就没法解释为什么做这件事
  • 只能把 action 当做 very broad distribution,可以做 A 也可以做 B

System One vs System Two

  • 不会说话的人(婴儿)和物理世界交互,不会用 system one/two 解释自己行为
  • 规划(planning)和操作可能在一个另外的空间里做
  • STEM one vs STEM two 现在被 taking quite literally:LM grounding 到 action 距离太远
  • 如果有足够数据,可以 learn from scratch 那个 space

当前智能差距

  • 现在离人类的 planning 能力差得远
  • Bezier 的乌鸦实验:会用工具通过多层管道获取食物,这是 zero-shot 规划能力
  • 现在机器人能做到:不同颜色杯子可以倒水等,但 Bezier 级别的任务还做不到

建议

PhD

  1. 尽早培养自己的 taste:觉得什么是对的、什么是自己相信的
  2. 把对整个系统的理解做出来:不要只 care about one thing
  3. 最开始做比较 full stack 的东西:到第二年再选择做 open-ended 问题还是解决具体问题

如何判断方向

  • 看一些好的 research 的轨迹 :理解他们为什么做这件事,而不是他们做了什么
  • 学习的是 grading,不是具体技术
  • 想清楚很多不同的路,大家为什么做它或者不做它
  • 需要耐心:现在业界有 winner(具体指代未明确),大家可能没那么多耐心培养 taste

当前读 PhD 的难度

  • 更难:因为 fomo 太高,不跟主流就会被拉 out
  • 但资源变多了:工具(clone code 等)让研究更容易
  • 专注变难了:如果选择正确,做事容易很多

对 10 年前的自己说什么

"勇敢地做自己想做的事------what's the loose?"

逻辑顺畅,收获很多的一个访谈


附录

术语 解释
Behavior Cloning (BC) 行为克隆,把机器人当作强监督学习问题,直接用人类演示数据训练控制策略
Human Data 人类数据,用于机器人学习的人类操作数据,模态包括第一人称视频、hand pose、触觉等
EgoMimic 一个用第一人称视频数据做 robot learning 的项目
UMI (Universal Manipulation Interface) 通用操作接口,用人手操作类似 gripper 的设备采集数据
SLAM 即时定位与地图构建,用于捕捉手部在空间中的位置
VIO Visual-Inertial Odometry,视觉惯性里程计
Tactile 触觉数据
Full Stack 全栈,对机器人硬件、算法、数据整个 pipeline 都要有深入理解
Task and Motion Planning (TAMP) 任务与运动规划
Teleoperation 遥操作,用控制设备远程操作机器人
Sim-to-Real 仿真到现实的迁移
DAgger Dataset Aggregation,强化学习中的策略迭代方法

论文整理

强化学习与模仿学习

  1. Real-Time Iteration Scheme for Diffusion Policy
    扩散策略的实时迭代优化方案
  2. ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning
    ASkDAgger:面向交互式模仿学习的主动技能级数据聚合方法
  3. Analyzing the Impact of Multimodal Perception on Sample Complexity and Optimization Landscapes in Imitation Learning
    多模态感知对模仿学习样本复杂度与优化曲面的影响分析
  4. TrajEvo: Trajectory Prediction Heuristics Design via LLM-driven Evolution
    TrajEvo:基于大模型进化算法的轨迹预测启发式策略设计
  5. BTPG-max: Achieving Local Maximal Bidirectional Pairs for Bidirectional Temporal Plan Graphs
    BTPG-max:双向时序规划图的局部最优双向配对算法

机器人操控与具身智能

  1. Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
    Genie:面向机器人操控的统一世界基础平台
  2. Robust adaptive fuzzy sliding mode control for trajectory tracking for of cylindrical manipulator
    圆柱机械臂轨迹跟踪的鲁棒自适应模糊滑模控制
  3. CleanUpBench: Embodied Sweeping and Grasping Benchmark
    CleanUpBench:具身清扫与抓取任务基准数据集
  4. Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
    学会感知与行动:面向机器人操控的任务感知视角规划
  5. FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction
    FCBV-Net:基于特征条件双手价值预测的类别级机器人衣物抚平算法
  6. A Vision-Based Collision Sensing Method for Stable Circular Object Grasping with A Soft Gripper System
    面向柔性夹爪稳定抓取圆形物体的视觉碰撞检测方法
  7. Benchmarking Shortcutting Techniques for Multi-Robot-Arm Motion Planning
    多机械臂运动规划捷径优化技术基准评测
  8. Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction
    迈向具身智能体AI:大语言/视觉语言模型驱动的机器人自主交互综述与分类
  9. GhostShell: Streaming LLM Function Calls for Concurrent Embodied Programming
    GhostShell:面向并发具身编程的流式大模型函数调用框架

感知、定位与状态估计

  1. A Multi-view Landmark Representation Approach with Application to GNSS-Visual-Inertial Odometry
    适用于GNSS视觉惯性里程计的多视角地标表征方法
  2. Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control
    融合视觉-语言-动作模型的信息论图融合算法,用于策略推理与双机器人协同控制
  3. Robots can defuse high-intensity conflict situations
    机器人在高强度冲突场景中的缓和应用研究

导航与运动规划

  1. Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling
    基于共形不确定性处理的人群导航通用安全策略研究
  2. MAG-Nav: Language-Driven Object Navigation Leveraging Memory-Reserved Active Grounding
    MAG-Nav:结合记忆留存主动定位的语言驱动物体导航算法
  3. Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots
    面向移动机器人自主迷宫导航的分层深度确定性策略梯度算法
  4. Optimal Planning for Multi-Robot Simultaneous Area and Line Coverage Using Hierarchical Cyclic Merging Regulation
    基于分层循环合并策略的多机器人区域与线路协同覆盖最优规划
  5. DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model
    DistillDrive:基于同构异源规划模型的端到端多模态自动驾驶知识蒸馏
  6. Towards Human-Centric Evaluation of Interaction-Aware Automated Vehicle Controllers: A Framework and Case Study
    面向交互感知自动驾驶控制器的人本评估框架与实例研究

人机交互与协作

  1. Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation
    人机协同操控场景下的混合主动式对话交互
  2. Do Robots Really Need Anthropomorphic Hands?
    机器人真的需要拟人化机械手吗?
  3. Dancing with a Robot: An Experimental Study of Child-Robot Interaction in a Performative Art Setting
    与机器人共舞:艺术表演场景中的儿童机器人交互实验研究
  4. From Canada to Japan: How 10,000 km Affect User Perception in Robot Teleoperation
    跨越万里:一万公里距离对机器人遥操作用户感知的影响研究
  5. Examining the legibility of humanoid robot arm movements in a pointing task
    指向任务中人形机械臂运动轨迹的可辨识度研究
  6. On the causality between affective impact and coordinated human-robot reactions
    情感影响与人机协同行为反应的因果关系探究
  7. Affecta-Context: The Context-Guided Behavior Adaptation Framework
    Affecta-Context:上下文引导的机器人行为自适应框架
  8. INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM
    INTENTION:结合交互直觉与视觉语言模型的人形机器人运动意图推理
相关推荐
小饕1 小时前
AI编程的三阶段演化:哪些方向真正值得投入,哪些被高估了
人工智能·ai编程
蔡俊锋2 小时前
把1500个业务的大迁移,做成了可复用流水线用 Skill+Agent+Rule,省下 60 人年的实战复盘
人工智能·skill+agent
ZGi.ai2 小时前
AI中台和AI工具的区别:为什么说前者是基础设施而后者是应用
人工智能·chatgpt·ai工具·ai基础设施
飘落的数码折腾日记2 小时前
OpenClaw 是什么?让 AI 真正 “动手“ 帮你干活的秘密武器
人工智能
fthux2 小时前
用了 GitZip 这么多年,我动手做了一个「Pro」版
人工智能·开源·github
Zik----2 小时前
DAEFR (ICLR 2024)— 盲脸超分模型解读
人工智能·python·高光谱图像·光谱恢复
TheRouter2 小时前
Agent Harness系列(三):记忆层的3种持久化架构——从SQLite到向量库
人工智能·架构·sqlite·llm·ai-native
一切皆是因缘际会2 小时前
从概率生成到内生心智:2026大模型瓶颈与下一代AI演进方向
人工智能·安全·ai·架构
X54先生(人文科技)2 小时前
《元创力》纪实录·心田记釉下新声:当《纪·念》成为可聆听的星轨
人工智能·开源·ai写作·开源协议