

这两张图片分别展示了人体动作理解和人机共享控制两个研究方向的核心内容。以下是详细翻译:
图片一:从人类数据中挖掘(Mining from Human Data)
| 英文 | 中文 |
|---|---|
| Mining from Human Data | 从人类数据中挖掘 |
| MIT Massachusetts Institute of Technology | 麻省理工学院 |
TPAMI'22, 23 / CVPR'20 发表于IEEE模式分析与机器智能汇刊(2022、2023)/ 计算机视觉与模式识别会议(2020)
核心内容
Essential thing: deeply understand human actions, 2019-2021
核心目标:深入理解人类行为(2019-2021年)
Alignment of Semantics, Kinematics, Dynamics
实现语义、运动学、动力学三者的对齐
展示项目
- AlphaPose(人体姿态估计)
- GitHub开源项目(Watch 207 / Fork 2k / Star 8k)
- 功能:从图像/视频中检测人体骨架关键点
- 左侧展示了多人姿态估计效果(绿色骨架覆盖)
- HAKE: Part State Library(HAKE:部件状态库)
- Hand(手部) 动作状态分类库
- 包含数十种细粒度手部动作状态,例如:
| 英文 | 中文 |
|---|---|
| Hold / Carry / Reach for / Touch | 握持 / 搬运 / 伸手取 / 触摸 |
| Put on / Twist / Wear / Throw | 穿上 / 拧转 / 穿戴 / 投掷 |
| Write on / Point with / Press / Squeeze | 书写 / 指向 / 按压 / 挤压 |
| Pinch / Push / Pull / Wash / Lift | 捏取 / 推动 / 拉动 / 清洗 / 举起 |
| Cut with / Catch / Pour into / Scratch | 切割 / 接住 / 倒入 / 抓挠 |
- 每个动作下展示多张真实场景中的手部特写图片,构成部位状态(Part State)数据集
底部总结
Recovering Human Geometrics & Semantics from Pixels
从像素中恢复人类的几何结构与语义信息
图片二:共享自主(Shared Autonomy)
头部信息
| 英文 | 中文 |
|---|---|
| Shared Autonomy | 共享自主 / 共享控制 |
| ICRA'25 Best Paper on HRI | ICRA 2025 人机交互(HRI)最佳论文 |
核心创新
Expert data(10%) → training agent + non-expert (90%) → Diffusion Policy
仅用 10%专家数据训练智能体,结合 90%非专家数据,通过扩散策略(Diffusion Policy)学习
Speed x 2 w/ similar data ROI (data/performance)
在相似的数据投入产出比(数据量/性能)下,数据采集速度提升2倍
系统架构(左侧图示)

| 组件 | 说明 |
|---|---|
| Human Operator (人类操作员) | 佩戴VR设备的人类 |
| Shared Control(共享控制) | 人与智能体共同控制机器人 |
| Dexterous Hand(灵巧手) | 实验环境中的机器人灵巧手 |
| Database(数据库) | 采集的数据存入数据库 |
| Learned Agent(学习到的智能体) | 基于数据训练出的AI智能体 |
系统描述:
"We introduce a novel system that enables human operators to share control with a learned assistive agent, facilitating simultaneous human demonstration collection and robot manipulation teaching."
我们引入了一个新系统,使人类操作员能够与学习型辅助智能体共享控制,实现同步采集人类示范数据与机器人操作教学。
控制机制(右侧图示 / Figure 2)
"To achieve shared control between the human and agent, we blend the action from the human operator a^h using the forward and reverse process."
为实现人与智能体之间的共享控制,我们利用前向与反向过程混合人类操作员的动作(a^h)。
控制参数 γ(Gamma):
- γ = 0.3(低值):动作更倾向于与人类操作员的意图对齐
- γ = 0.7(中值):共享控制,两者共同作用
- γ = 1.0(高值):完全自主,学习到的智能体主导动作
动作类型:
- a^h:人类动作(Human Action)
- a^s1, a^s2:共享控制动作(Shared Control Action)
- a^k1, a^k2:中间混合动作
- a^r:完全自主动作(Full Autonomy Action)
两张图的关联
| 维度 图片一(人体理解) | 图片二(共享控制) |
|---|---|
| 阶段 数据采集与理解 | 数据利用与控制 |
| 核心 从像素中解析人类语义与几何 | 让人类与AI共同控制机器人 |
| 方法 AlphaPose + HAKE部位状态库 | 扩散策略 + 共享控制框架 |
| 价值 为机器人提供"看懂人类动作"的能力 | 降低专家数据采集成本,加速学习 |
一句话总结:第一张图解决"机器人如何理解人类动作",第二张图解决"机器人如何在与人类协作中快速学习动作"------两者共同构成了人机协作具身智能的技术基础。
这张图片揭示了机器人学习领域中的一个关键问题:数据偏见与评估偏见的双重困境。

Robot learns from biased-data
机器人从有偏见的数据中学习
But also evaluated on biased-benchmark
但同时也在有偏见的基准测试上被评估
- 泡泡里是一个词云(word cloud),其中 "place"(放置) 和 "pick"(拾取) 字体最大最突出
- 周围还有 lift、grasp、hold、move、fold、use、push、press 等动词
含义:训练数据集中不同动作的频率严重不均衡------某些动作(如 place、pick)被过度采样,而其他动作则被忽视。机器人学到的技能是有偏的。
右侧视觉元素
奖杯与散点图
- 一个奖杯放在建筑图纸上,旁边有一条向上的蓝色箭头
- 奖杯上方是一个散点图/聚类图,不同颜色代表不同基准测试集:
颜色 英文 中文
⚪ 浅灰 All Actions can be Executed 所有可执行动作
🟡 黄色 Shared Actions among Benchmarks 各基准共有的动作
🔴 红色 Libero90 基准测试集 Libero90
🟢 绿色 RoboCasa 基准测试集 RoboCasa
🔵 浅蓝 RoboChallenge30 基准测试集 RoboChallenge30
🟠 橙色 RoboTwin2.0 基准测试集 RoboTwin2.0
含义:基准测试集本身也存在偏见------不同测试集覆盖的动作类型高度重叠且分布不均。即使机器人在这些基准上获得高分(赢得奖杯),也不代表它真正具备泛化能力。
右上角表格翻译
Action Primitives Description
动作原语 描述
Lift. Take hold of something and move it to a different location. 举起。 抓住某物并将其移到不同位置。
Grab. Take or grasp suddenly. 抓取。 突然拿取或抓握。
Hold. Have or hold in one's hands or grip. 握住。 用手或夹爪持有或握紧。
Clear the workspace by tossing the trash into the bin.
通过将垃圾扔进垃圾桶来清理工作区。
右侧场景图片
四张小图展示了机器人操作的不同场景(厨房、桌面操作等)。
核心问题总结
这张图指出了一个恶性循环:
有偏见的数据 → 训练出有偏见的模型 → 在有偏见的基准上获得虚高分数
具体表现:
问题层面 具体表现
数据偏见 开源数据集中 pick/place/hold 等少数动作占据绝大多数样本
评估偏见 主流基准测试集(Libero90、RoboCasa 等)覆盖的动作分布与训练数据高度重合
后果 机器人在"舒适区"动作上表现优异,但面对真实世界中多样化的操作任务时泛化能力差
一句话总结
机器人从"有偏见的数据"中学习,又在"有偏见的基准"上被评估,导致两者相互强化,形成"虚假繁荣"------看似高分,实则缺乏真正的泛化能力。