人体动作理解和人机共享控制两个研究方向的核心内容


这两张图片分别展示了人体动作理解和人机共享控制两个研究方向的核心内容。以下是详细翻译:

图片一:从人类数据中挖掘(Mining from Human Data)

英文 中文
Mining from Human Data 从人类数据中挖掘
MIT Massachusetts Institute of Technology 麻省理工学院

TPAMI'22, 23 / CVPR'20 发表于IEEE模式分析与机器智能汇刊(2022、2023)/ 计算机视觉与模式识别会议(2020)

核心内容

Essential thing: deeply understand human actions, 2019-2021

核心目标:深入理解人类行为(2019-2021年)

Alignment of Semantics, Kinematics, Dynamics

实现语义、运动学、动力学三者的对齐

展示项目

  1. AlphaPose(人体姿态估计)
  • GitHub开源项目(Watch 207 / Fork 2k / Star 8k)
  • 功能:从图像/视频中检测人体骨架关键点
  • 左侧展示了多人姿态估计效果(绿色骨架覆盖)
  1. HAKE: Part State Library(HAKE:部件状态库)
  • Hand(手部) 动作状态分类库
  • 包含数十种细粒度手部动作状态,例如:
英文 中文
Hold / Carry / Reach for / Touch 握持 / 搬运 / 伸手取 / 触摸
Put on / Twist / Wear / Throw 穿上 / 拧转 / 穿戴 / 投掷
Write on / Point with / Press / Squeeze 书写 / 指向 / 按压 / 挤压
Pinch / Push / Pull / Wash / Lift 捏取 / 推动 / 拉动 / 清洗 / 举起
Cut with / Catch / Pour into / Scratch 切割 / 接住 / 倒入 / 抓挠
  • 每个动作下展示多张真实场景中的手部特写图片,构成部位状态(Part State)数据集

底部总结

Recovering Human Geometrics & Semantics from Pixels

从像素中恢复人类的几何结构与语义信息


图片二:共享自主(Shared Autonomy)

头部信息

英文 中文
Shared Autonomy 共享自主 / 共享控制
ICRA'25 Best Paper on HRI ICRA 2025 人机交互(HRI)最佳论文

核心创新

Expert data(10%) → training agent + non-expert (90%) → Diffusion Policy

仅用 10%专家数据训练智能体,结合 90%非专家数据,通过扩散策略(Diffusion Policy)学习

Speed x 2 w/ similar data ROI (data/performance)

在相似的数据投入产出比(数据量/性能)下,数据采集速度提升2倍

系统架构(左侧图示)

组件 说明
Human Operator (人类操作员) 佩戴VR设备的人类
Shared Control(共享控制) 人与智能体共同控制机器人
Dexterous Hand(灵巧手) 实验环境中的机器人灵巧手
Database(数据库) 采集的数据存入数据库
Learned Agent(学习到的智能体) 基于数据训练出的AI智能体

系统描述:

"We introduce a novel system that enables human operators to share control with a learned assistive agent, facilitating simultaneous human demonstration collection and robot manipulation teaching."

我们引入了一个新系统,使人类操作员能够与学习型辅助智能体共享控制,实现同步采集人类示范数据与机器人操作教学。

控制机制(右侧图示 / Figure 2)

"To achieve shared control between the human and agent, we blend the action from the human operator a^h using the forward and reverse process."

为实现人与智能体之间的共享控制,我们利用前向与反向过程混合人类操作员的动作(a^h)。

控制参数 γ(Gamma):

  • γ = 0.3(低值):动作更倾向于与人类操作员的意图对齐
  • γ = 0.7(中值):共享控制,两者共同作用
  • γ = 1.0(高值):完全自主,学习到的智能体主导动作

动作类型:

  • a^h:人类动作(Human Action)
  • a^s1, a^s2:共享控制动作(Shared Control Action)
  • a^k1, a^k2:中间混合动作
  • a^r:完全自主动作(Full Autonomy Action)

两张图的关联

维度 图片一(人体理解) 图片二(共享控制)
阶段 数据采集与理解 数据利用与控制
核心 从像素中解析人类语义与几何 让人类与AI共同控制机器人
方法 AlphaPose + HAKE部位状态库 扩散策略 + 共享控制框架
价值 为机器人提供"看懂人类动作"的能力 降低专家数据采集成本,加速学习

一句话总结:第一张图解决"机器人如何理解人类动作",第二张图解决"机器人如何在与人类协作中快速学习动作"------两者共同构成了人机协作具身智能的技术基础。

这张图片揭示了机器人学习领域中的一个关键问题:数据偏见与评估偏见的双重困境。

Robot learns from biased-data

机器人从有偏见的数据中学习

But also evaluated on biased-benchmark

但同时也在有偏见的基准测试上被评估


  • 泡泡里是一个词云(word cloud),其中 "place"(放置) 和 "pick"(拾取) 字体最大最突出
  • 周围还有 lift、grasp、hold、move、fold、use、push、press 等动词

含义:训练数据集中不同动作的频率严重不均衡------某些动作(如 place、pick)被过度采样,而其他动作则被忽视。机器人学到的技能是有偏的。


右侧视觉元素

奖杯与散点图

  • 一个奖杯放在建筑图纸上,旁边有一条向上的蓝色箭头
  • 奖杯上方是一个散点图/聚类图,不同颜色代表不同基准测试集:

颜色 英文 中文

⚪ 浅灰 All Actions can be Executed 所有可执行动作

🟡 黄色 Shared Actions among Benchmarks 各基准共有的动作

🔴 红色 Libero90 基准测试集 Libero90

🟢 绿色 RoboCasa 基准测试集 RoboCasa

🔵 浅蓝 RoboChallenge30 基准测试集 RoboChallenge30

🟠 橙色 RoboTwin2.0 基准测试集 RoboTwin2.0

含义:基准测试集本身也存在偏见------不同测试集覆盖的动作类型高度重叠且分布不均。即使机器人在这些基准上获得高分(赢得奖杯),也不代表它真正具备泛化能力。


右上角表格翻译

Action Primitives Description

动作原语 描述

Lift. Take hold of something and move it to a different location. 举起。 抓住某物并将其移到不同位置。

Grab. Take or grasp suddenly. 抓取。 突然拿取或抓握。

Hold. Have or hold in one's hands or grip. 握住。 用手或夹爪持有或握紧。

Clear the workspace by tossing the trash into the bin.

通过将垃圾扔进垃圾桶来清理工作区。


右侧场景图片

四张小图展示了机器人操作的不同场景(厨房、桌面操作等)。


核心问题总结

这张图指出了一个恶性循环:

复制代码
有偏见的数据 → 训练出有偏见的模型 → 在有偏见的基准上获得虚高分数

具体表现:

问题层面 具体表现

数据偏见 开源数据集中 pick/place/hold 等少数动作占据绝大多数样本

评估偏见 主流基准测试集(Libero90、RoboCasa 等)覆盖的动作分布与训练数据高度重合

后果 机器人在"舒适区"动作上表现优异,但面对真实世界中多样化的操作任务时泛化能力差


一句话总结

机器人从"有偏见的数据"中学习,又在"有偏见的基准"上被评估,导致两者相互强化,形成"虚假繁荣"------看似高分,实则缺乏真正的泛化能力。

相关推荐
浔川python社1 小时前
AI 生成视频盛行,会带来哪些利与弊
人工智能
AI科技星1 小时前
《全域数学》第一部:数术本源·第二卷《算术原本》之十四附录(二)全域数学体系下三大数论猜想的本源推演与哲学阐释【乖乖数学】
人工智能·线性代数·机器学习·量子计算·agi
qcx231 小时前
拆解 Warp AI Agent(一):类型即协议——23 种 Action 的编译期安全设计
人工智能·安全·ai·agent·源码解析·warp
蔡俊锋1 小时前
AI进阶运营:从信息爆炸到智能掌控
人工智能·chatgpt·ai进阶运营
weixin_511840471 小时前
2026年4月23日 Hermes Agent 与 OpenClaw 深度对比研究
人工智能
乱世刀疤1 小时前
如何写好GPT Image 2 提示词
人工智能
HERR_QQ1 小时前
端到端课程自用 5 规划 基于Difussion 的端到端planner AI 笔记
人工智能·笔记·学习·自动驾驶
一点一木8 小时前
🚀 2026 年 4 月 GitHub 十大热门项目排行榜 🔥
人工智能·github
淡海水10 小时前
【AI模型】常见问题与解决方案
人工智能·深度学习·机器学习