HANDOFF：基于蒸馏互补教师的人形机器人任务空间整体控制

论文来源 : arXiv:2606.06493 | 主题: 人形机器人控制、强化学习、知识蒸馏、多智能体系统、任务空间控制

📌 摘要与核心贡献

传统整体控制器（WBC）需要密集的全身运动学参考，而规划器难以从高层任务语义中合成这些参考。

本文提出 HANDOFF ，一种紧凑且显式的 10-维任务空间接口 ，具有直观、通用、模块化且能表达全身控制的特点。该方法通过多教师 KL 蒸馏 在上下文条件门控方案下进行蒸馏，并蒸馏为混合专家 (MoE) 学生模型。

核心贡献：

10-维任务空间接口：提供一个紧凑的接口，直接映射到规划器家族（如步态栈、抓取规划器、 squat/reach 启发式），无需针对特定方法进行重定向或控制器微调。
多教师蒸馏与 MoE：结合运动跟踪、步态和跌倒恢复三个教师模型，通过软 MoE 路由避免双峰伪影。
硬件验证：在 Unitree G1 人形机器人上验证，实现了目前最大规模的稳健操纵工作空间 (97.7%) 并支持自然语言驱动的任务执行。

1. 核心机制与架构

1.1 10-维任务空间接口

规划器输出的紧凑命令向量 c t c_t ct 如下：

c t = $v x , v y , ω z , z , p L P , p R P$ c_t = $v_x, v_y, \\omega_z, z, p_{LP}, p_{RP}$ ct= $vx,vy,ωz,z,pLP,pRP$

v x , v y , ω z v_x, v_y, \omega_z vx,vy,ωz: 平面基座速度命令
z z z: 命令的根部高度
p L P , p R P p_{LP}, p_{RP} pLP,pRP: 双侧骨盆框架手腕目标

优势：该接口直观且支持全身表达，避免了传统方法中复杂的关节空间映射。

1.2 蒸馏管道与架构

教师模型	专长	训练数据/机制
运动跟踪 (Motion-Tracking)	全身姿态与协调	重定影的人类动作剪影 + 安全过滤 CBF 投影
步态 (Locomotion)	速度跟踪与步态塑造	平坦地形 + 课程融合运动数据
跌倒恢复 (Fall-Recovery)	从跌倒恢复及动态稳定性	配对跌倒/恢复序列 + 对抗性运动先验 (AMP)

上下文条件门控 ：利用 regime 信号对监督进行路由：
x t = ( ∥ c t v e l ∥ , r e c o v e r t ) \mathbf{x}_t = (\|c_t^{\mathrm{vel}}\|, \mathrm{recover}_t) xt=(∥ctvel∥,recovert)
软 MoE 路由 ：通过连续凸混合避免双峰伪影，身体切片通过连续凸混合进行监督：
α = σ ( ∥ c t v e l ∥ − 0.1 0.02 ) \alpha = \sigma\left(\frac{\|c_t^{\mathrm{vel}}\| - 0.1}{0.02}\right) α=σ(0.02∥ctvel∥−0.1)

2. 损失函数与优化目标

整体损失函数由以下部分组成：

L = L P P O + λ B L K L B + λ A L K L A + λ A M P L K L A M P + β L B L L B + β R L R \mathcal{L} = \mathcal{L}{\mathrm{PPO}} + \lambda_B \mathcal{L}{\mathrm{KL}}^B + \lambda_A \mathcal{L}{\mathrm{KL}}^A + \lambda{\mathrm{AMP}} \mathcal{L}{\mathrm{KL}^{\mathrm{AMP}}} + \beta{\mathrm{LB}} \mathcal{L}{\mathrm{LB}} + \beta{\mathrm{R}} \mathcal{L}_{\mathrm{R}} L=LPPO+λBLKLB+λALKLA+λAMPLKLAMP+βLBLLB+βRLR

稳定性奖励：包括支撑多边形内的 CoM、支撑多边形内的捕获点、踝/髋/步层级以及角/线性动量惩罚。
上下文条件身体切片 KL ：
L K L B = ( 1 − α ) D K L ( π θ B ∥ π w b c B ) + α D K L ( π θ B ∥ π l o c o B ) \mathcal{L}{\mathrm{KL}}^B = (1-\alpha) D{\mathrm{KL}}(\pi_\theta^B \| \pi_{\mathrm{wbc}}^B) + \alpha D_{\mathrm{KL}}(\pi_\theta^B \| \pi_{\mathrm{loco}}^B) LKLB=(1−α)DKL(πθB∥πwbcB)+αDKL(πθB∥πlocoB)

3. 实验结果与评估

3.1 性能指标

工作空间体积 : h u l l _ v o l × f e a s i b l e _ f r a c hull\_vol \times feasible\_frac hull_vol×feasible_frac (限制在目标 x ≥ 0 x \ge 0 x≥0 的前半空间)
稳健工作空间 : 达到 0.31 m 3 m^3 m3（目前评估的最大规模）
速度跟踪误差 :
- ∣ Δ v x ∣ ≈ 0.06 − 0.07 |\Delta v_x| \approx 0.06 - 0.07 ∣Δvx∣≈0.06−0.07
- ∣ Δ v y ∣ ≈ 0.14 − 0.18 |\Delta v_y| \approx 0.14 - 0.18 ∣Δvy∣≈0.14−0.18
- ∣ Δ ω z ∣ ≈ 0.04 − 0.06 |\Delta \omega_z| \approx 0.04 - 0.06 ∣Δωz∣≈0.04−0.06
可行性率 (Feasibility Rate) : 高达 97.7%

3.2 对比实验

在稳健操纵工作空间方面，HANDOFF 优于基线（FALCON, OpenHomie, AMO, SONIC），同时在速度跟踪方面保持竞争力。

4. 硬件部署与堆栈

平台: Unitree G1 (29 DoF) 配备 Dex1-1 机械爪、ZED-M 立体 RGB-D 相机及 Jetson Thor 计算平台。
供电: 通过单个 140W USB-PD 移动电源完全免 tether。
Agent 规划器堆栈 :
- 高级推理器将自然语言分解为原子任务（正则/LLM 回退）
- VLM 将 2D 点/边界框投影到 RGB-D 点云 → 骨盆框架航点
- 技能选择器生成动作指令

5. 局限性与未来方向

手腕位置目标: 暴露的是 3-D 骨盆框架位置，而非完整的 6-D 夹爪姿态（需要运行时运动学纠正）。
感知受限: 单固定姿态头部安装的 RGB-D 相机限制视场；未来工作将探索 gimbaled 头部/腕部相机。
专家覆盖范围: 教师集合虽广泛但不完整；未来将增加地形、接触和重负载专家。
可扩展性: 新专家可作为一个新的教师头加一个上下文通道插入，无需更改现有教师或接口。