目录
-
- 论文核心信息
- 一、研究背景与动机
-
- [1.1 现有方法的局限性](#1.1 现有方法的局限性)
- [1.2 核心科学问题](#1.2 核心科学问题)
- 二、方法框架:XHugWBC
-
- [2.1 物理一致形态随机化(Physics-Consistent Morphological Randomization)](#2.1 物理一致形态随机化(Physics-Consistent Morphological Randomization))
- [2.2 通用跨形态表示(Universal Cross-Embodiment Representation)](#2.2 通用跨形态表示(Universal Cross-Embodiment Representation))
- [2.3 跨人形学习架构](#2.3 跨人形学习架构)
- 三、实验验证
-
- [3.1 仿真评估(12台机器人)](#3.1 仿真评估(12台机器人))
- [3.2 真实世界验证(7台机器人)](#3.2 真实世界验证(7台机器人))
- [3.3 架构消融实验](#3.3 架构消融实验)
- 四、与相关工作的对比
- 五、技术局限与未来方向
-
- [5.1 当前局限](#5.1 当前局限)
- [5.2 未来方向](#5.2 未来方向)
- 六、总结评价
摘要
Learning-based whole-body controllers have become a key driver for humanoid robots, yet most existing approaches require robot-specific training.
In this paper, we study the problem of cross-embodiment humanoid control and show that a single policy can robustly generalize across a wide range of humanoid robot designs with one-time training.
We introduce XHugWBC, a novel cross-embodiment training framework that enables generalist humanoid control through: (1) physics-consistent morphological randomization, (2) semantically aligned observation and action spaces across diverse humanoid robots, and (3) effective policy architectures that model morphological and dynamical properties.
XHugWBC is not tied to any specific robot. Instead, it internalizes a broad distribution of morphological and dynamical characteristics during training.
By learning motion priors from diverse randomized embodiments, the policy acquires a strong structural bias that supports zero-shot transfer to previously unseen robots. Experiments on twelve simulated humanoids and seven real-world robots demonstrate the strong generalization and robustness of the resulting universal controller.
结论
We present XHugWBC, a scalable cross-humanoid whole-body controller and training framework that enables zero-shot embodiment generalization.
Extensive simulation and real-world experiments show that the generalist policy transfers robustly across diverse humanoid robots, despite substantial differences in degrees of freedom, dynamics, and kinematic topologies.
The learned policy further supports precise and stable control for long-horizon whole-body tasks. While effective, XHugWBC relies on a unified command interface in which all robots are driven by control signals with shared semantics.
This simplifies the learning process but limits applicability to more expressive control settings. For example, motion tracking requires embodiment-specific retargeting, leading to a mismatch between motion representation and robot morphology.
Extending cross-embodiment learning to support expressive, morphology-aware control remains an important direction for future work.
我将为您分析这篇关于跨人形机器人全身控制的论文。让我先搜索一些相关的背景信息来补充分析。
基于论文内容和搜索到的相关研究背景,我为您详细分析这篇关于跨人形机器人全身控制的重要工作。
论文核心信息
| 属性 | 内容 |
|---|---|
| 标题 | Scalable and General Whole-Body Control for Cross-Humanoid Locomotion |
| 作者 | 薛宇飞、林云风、董文韬等(上海交通大学 & 上海人工智能实验室) |
| 发表 | arXiv:2602.05791v1, 2026年2月 |
| 核心贡献 | 首个在7台真实人形机器人上实现零样本泛化的通用全身控制策略 |
一、研究背景与动机
1.1 现有方法的局限性
当前基于学习的全身控制(WBC)方法面临可扩展性瓶颈:
- 单机器人训练:大多数方法(如HugWBC、OmniH2O)针对特定机器人设计,换新平台需完全重新训练
- 形态差异巨大:人形机器人在自由度(DoF)、运动学结构、动力学特性上差异显著(12-32个关节不等)
- 训练成本高昂:每台新机器人需要大量数据采集和训练时间
1.2 核心科学问题
能否用单一策略控制形态各异的人形机器人?
这要求策略具备:
- 形态无关性(Embodiment-Agnostic):适应不同关节配置和连杆结构
- 物理合理性:遵守刚体动力学约束
- 实时控制能力:支持全身运动-操作(Loco-Manipulation)
二、方法框架:XHugWBC
论文提出三支柱技术架构:
2.1 物理一致形态随机化(Physics-Consistent Morphological Randomization)
关键创新 :解决传统域随机化产生的物理不一致问题
| 传统方法 | XHugWBC方法 |
|---|---|
| 直接扰动质量、惯量参数 | 通过Cholesky分解保证正定性 |
| 易产生非物理可行机器人(负质量、非正定惯量) | 在10维流形上平滑随机化 |
| 仿真不稳定,sim-to-real失败 | 保持物理一致性,支持真实部署 |
数学核心:
- 使用伪惯量矩阵 (Pseudo-Inertia Matrix) J ≻ 0 \mathbf{J} \succ 0 J≻0 约束
- 通过Cholesky因子 L \mathbf{L} L 参数化: J = L L ⊤ \mathbf{J} = \mathbf{L}\mathbf{L}^\top J=LL⊤
- 引入仿射变换 解释随机化:拉伸/压缩( d 1 , d 2 , d 3 d_1,d_2,d_3 d1,d2,d3)、剪切( s 12 , s 13 , s 23 s_{12},s_{13},s_{23} s12,s13,s23)、平移( t 1 , t 2 , t 3 t_1,t_2,t_3 t1,t2,t3)、密度缩放( α \alpha α)
生成范围:从12自由度(纯双足)到32自由度(全身+头部+双臂)的多样化机器人
2.2 通用跨形态表示(Universal Cross-Embodiment Representation)
语义对齐关节空间:
- 定义规范32维全局关节空间(Global Joint Space),覆盖所有人形机器人可能配置
- 建立从机器人特定关节到全局语义的映射 ϕ r : R N r → R 32 \phi_r: \mathbb{R}^{N_r} \to \mathbb{R}^{32} ϕr:RNr→R32
- 零填充处理缺失关节,保持输入维度一致
图结构形态描述:
- 将机器人建模为有向运动学图 G = ( V , E ) \mathcal{G}=(\mathcal{V},\mathcal{E}) G=(V,E)
- 节点:关节,边:刚性连接
- 处理并联连杆机构(如踝关节)通过节点折叠
2.3 跨人形学习架构
观察空间(统一接口):
- 本体感知:角速度、重力方向、关节位置/速度、历史动作
- 可控性指示器 I ( t ) \mathbf{I}(t) I(t):标记哪些关节可控制
- 全身指令 c t \mathbf{c}_t ct:速度、姿态、步态参数
策略网络设计:
| 组件 | 架构选择 | 功能 |
|---|---|---|
| 编码器 | GCN(Graph Convolutional Network,图卷积网络) 或 Transformer | 建模运动学拓扑 |
| 状态估计器 | MLP | 重建线速度、基座高度(解决部分可观测) |
| 动作解码器 | 节点级线性层 | 生成关节目标位置 |
Transformer变体 :采用混合掩码策略
- 第一层:图掩码注意力(尊重运动学结构)
- 后续层:全局自注意力(协调全身运动)
三、实验验证
3.1 仿真评估(12台机器人)
零样本泛化性能(对比专家策略):
| 指标 | 专家策略 | XHugWBC通用策略 | 差距 |
|---|---|---|---|
| 生存率 | 100% | 100% | 无差距 |
| 速度跟踪误差 | 0.060 m/s | 0.084 m/s | ~40% ↑ |
| 角速度跟踪 | 0.121 rad/s | 0.160 rad/s | ~32% ↑ |
| 高度控制 | 0.138 m | 0.097 m | 更优 |
关键发现:
- 通用策略达到专家策略**~85%性能**
- 微调后超越专家:Generalist-FT在Agibot X2等机器人上提升达10%
3.2 真实世界验证(7台机器人)
测试平台(图1展示):
- Unitree G1 (23/29 DoF)
- Agibot X2 (40 kg)
- Fourier N1 (39 kg)
- Booster T1 (31 kg)
- Dobot Atom (60 kg)
- Unitree H1-2 (66 kg)
- 以及仿真-only的MagicaLab Gen1等
任务成功率 :100% 零样本转移
全身运动-操作任务:
- 毛绒玩具抓取与放置
- 开门与穿越
- 双臂协调操作
3.3 架构消融实验
结论:Transformer > GCN >> MLP
- MLP无法捕捉关节间运动学依赖
- GCN和Transformer利用图结构显著提升样本效率
四、与相关工作的对比
| 方法 | 跨形态能力 | 真实机器人验证 | 全身控制 | 核心机制 |
|---|---|---|---|---|
| MetaMorph | 仿真1000+机器人 | 无 | 仅运动 | Transformer+形态描述符 |
| MorAL | 四足机器人 | 无 | 仅运动 | 形态自适应 |
| EAGLE | 5台人形 | 4台真实 | 全身 | 专家-通用蒸馏 |
| HugWBC | 无(单机器人) | 有 | 全身 | 统一命令空间 |
| XHugWBC(本文) | 12台仿真+7台真实 | 7台真实 | 全身+操作 | 物理一致随机化+图表示 |
核心优势:
- 首次在7台真实人形机器人上验证零样本转移
- 物理一致性保证sim-to-real可靠性
- 单一策略无需针对新机器人微调即可部署
五、技术局限与未来方向
5.1 当前局限
- 统一命令接口:依赖共享语义的控制信号,难以支持需要形态感知表达的控制(如精确运动跟踪)
- 运动重定向:需要额外的运动重定向步骤,与策略学习存在表示不匹配
5.2 未来方向
- 扩展至非人形形态(四足、轮式等)
- 结合大模型实现自然语言指令的跨形态控制
- 探索形态缩放定律(Embodiment Scaling Laws)
六、总结评价
学术价值:
- 解决了人形机器人领域长期存在的可扩展性难题
- 提出的物理一致随机化方法具有理论严谨性(基于李群和凸优化)
- 为通用机器人基础模型提供了可行路径
工程价值:
- 大幅降低新机器人部署成本(从数周训练降至零样本)
- 支持机器人集群的统一控制接口
- 已开源(网站提及),促进社区发展
影响力预测 :
这项工作标志着人形机器人控制从专用化 向通用化的重要转变,与近期Google DeepMind的RT-X、清华大学的UniGrasp等跨形态学习研究共同构成了机器人基础模型的新范式。