AME-2：基于注意力神经地图编码的敏捷与泛化腿足运动技术【文献解读】

论文标题：AME-2: Agile and Generalized Legged Locomotion via Attention-Based Neural Map Encoding

作者：Chong Zhang, Victor Klemm, Fan Yang, Marco Hutter

所属机构：Robotic Systems Lab, ETH Zurich; ETH AI Center, Switzerland

发表平台：arXiv.org (永久非独占许可)

论文编号：arXiv:2601.08485v2 $cs.RO$

更新日期：2026年3月24日

项目网站：https://sites.google.com/leggedrobotics.com/ame-2

通讯作者：chong.zhang@ai.ethz.ch

一、研究背景与关键科学问题

1.1 核心挑战

腿足机器人在真实多样化环境中实现敏捷且泛化的运动，需要解决以下技术难题：

感知与控制的紧耦合：机器人需在实时性要求下融合感知信息与控制决策；
鲁棒性与不确定性处理：传感器噪声、视觉遮挡、状态估计误差等不确定性因素；
动态行为与精确落脚：在稀疏落脚点地形上既需要全身动态控制，又需要精确的足端定位；
泛化能力：在训练未见的地形上仍能保持高性能。

1.2 现有方法的局限性

传统模型驱动方法（基于显式建图与模型预测控制）：

依赖精确的状态估计和建图，对视觉遮挡敏感；
建图更新频率低于控制循环，存在延迟；
启发式滤波需要针对特定地形调参；
优化与规划组件计算开销大，限制敏捷性。

端到端强化学习方法（直接从原始传感器映射到动作）：

在跑酷等挑战性场景中展现出高敏捷性（如 $36,38,42$ ）；
但泛化能力有限，主要局限于训练环境；
可解释性差，地形推理隐含在策略网络中。

结合RL与显式建图的方法：

虽提升鲁棒性，但继承了建图系统的计算开销和故障模式；
许多方法在训练时假设完全观测的以自我为中心的地图，测试时对遮挡敏感；
策略倾向于保守，在需要高敏捷性的地形上表现不佳。

基于学习的建图方法：

用神经网络重建地图作为策略输入，效率高；
但通常针对特定地形分布训练，泛化性有限；
未显式建模不确定性（如遮挡）。

1.3 本文解决的关键问题

如何在一个统一框架中同时实现：

高敏捷性：支持快速、动态的运动（速度>1.5 m/s）；
强泛化性：在训练未见的地形上零样本部署；
高效率：轻量级建图，满足实时性要求；
可解释性：注意力机制提供可解读的特征模式；
跨平台适用性：同一训练框架适用于四足和双足机器人。

二、研究方法与技术路线

2.1 整体系统架构

AME-2采用模块化但端到端学习的设计哲学：

复制代码

传感器输入 → 神经建图流水线 → 注意力地图编码器 → 策略网络 → 关节动作
                    ↑                    ↑
                里程计信息          本体感知编码器

系统分为三大核心组件：

神经建图流水线（第五节）：将深度图像转换为带不确定性的高程地图；
AME-2注意力编码器（第四节A）：从地图中提取任务相关特征；
教师-学生强化学习框架（第四节C）：实现从仿真到实物的迁移。

2.2 问题形式化

本文将问题建模为部分可观测马尔可夫决策过程（POMDP）：

状态空间：机器人本体感知（关节位置/速度、基座角速度、投影重力等）+ 环境地图
动作空间：关节位置/速度的PD目标值（50 Hz策略频率，400 Hz执行频率）
奖励函数：任务奖励（位置跟踪、航向跟踪）+ 正则化奖励 + 仿真保真度奖励
优化算法：PPO（Proximal Policy Optimization） $60$

2.3 AME-2注意力地图编码器

这是本文的核心算法创新，其结构如下：

复制代码

高程地图输入 (L×W×d_map)
        ↓
    ┌───┴───┐
    ↓       ↓
 局部特征   全局特征
 (CNN)   (MLP+MaxPool)
    ↓       ↓
    └───┬───┘
        ↓
    注意力模块（MHA）
    查询：全局特征 + 本体感知嵌入
    键/值：局部特征
        ↓
    加权局部特征
        ↓
  地图嵌入 = 全局特征 ⊕ 加权局部特征

算法原理详解：

局部特征提取：
- 使用CNN从高程地图提取逐点局部特征；
- 使用MLP为每个位置计算位置编码；
- 融合后得到点状局部特征。
全局特征提取：
- 对点状局部特征应用MLP；
- 通过最大池化（Max Pooling）聚合为全局上下文特征；
- 捕捉地形的整体结构信息（如障碍边界、平台表面、梁中心）。
注意力机制：
- 全局特征与本体感知嵌入拼接后通过MLP生成查询向量；
- 点状局部特征作为键（Key）和值（Value）；
- 采用多头注意力（Multi-Head Attention） $63$ 计算注意力权重；
- 输出加权局部特征，强调与当前任务和地形上下文最相关的区域。
关键设计差异（对比AME-1 $15$ ）：
- AME-1仅用本体感知计算注意力权重；
- AME-2额外计算全局特征并用其调节注意力，使策略能根据不同地形类型学习不同的注意力模式和运动模式。

2.4 非对称演员-评论家训练

演员（Actor）：使用AME-2编码器，需要泛化能力；
评论家（Critic） ：使用混合专家（MoE）架构 $68$ ，不要求泛化，更注重函数拟合能力；
特权信息：评论家额外获取足端接触状态和更精确的本体感知信息；
左右对称增强：应用于评论家以提高样本效率和运动风格。

2.5 教师-学生强化学习框架

动机：直接使用神经建图流水线训练策略，仿真速度减半且GPU内存需求大。

训练流程：

教师策略训练（使用地面真实地图）：
- 80000次迭代，使用地面真实高程地图；
- 训练成本：~60 RTX-4090-days（8 GPU并行）。
学生策略训练（使用神经建图）：
- 40000次迭代；
- 优化目标：PPO RL损失 + 动作蒸馏损失 + 表示损失
- 表示损失 = 教师与学生地图嵌入的MSE；
- 前5000次迭代禁用PPO替代损失，仅进行蒸馏。

关键设计：

学生不接收基座线速度观测（里程计速度噪声大、延迟高）；
学生使用过去20步的本体感知历史，通过LSIO $66$ 编码时序信息。

2.6 神经建图流水线

这是支撑学生策略部署的关键技术。

2.6.1 局部预测

复制代码

深度点云 → 投影到局部网格 → 轻量级CNN（U-Net） → 高程估计 + 不确定性（对数方差）

网络训练：

数据合成：从多种地形网格（训练地形 + 随机堆叠方块 + 随机高度场 + 随机浮动方块）进行光线追踪采样；
数据增强：加性噪声、随机裁剪、模拟遮挡、随机削波、随机离群点；
损失函数：β-NLL损失（β=0.5） $80$ ：

L0.5=EX,Y $sg\[σ\^(X)$ (log⁡σ^2(X)2+(Y−μ^(X))22σ^2(X))]L_{0.5} = \mathbb{E}_{X,Y} $\\text{sg}\[\\hat{\\sigma}(X)$ (\frac{\log \hat{\sigma}^2(X)}{2} + \frac{(Y-\hat{\mu}(X))^2}{2\hat{\sigma}^2(X)})]L0.5=EX,Y $sg\[σ\^(X)$ (2logσ^2(X)+2σ^2(X)(Y−μ^(X))2)]

相比标准NLL，此损失防止模型在高不确定性区域过度保守。
样本重加权：根据地形总变分（TV）加权，使模型更关注粗糙地形。

2.6.2 全局融合

采用**概率赢家通吃（Probabilistic Winner-Take-All）**融合策略：

计算有效测量方差：σ^t2=max⁡(σt2,0.5⋅σprior2)\hat{\sigma}t^2 = \max(\sigma_t^2, 0.5 \cdot \sigma{prior}^2)σ^t2=max(σt2,0.5⋅σprior2)（防止过度自信）；
判断更新是否有效：σ^t2<1.5σprior2\hat{\sigma}t^2 < 1.5\sigma{prior}^2σ^t2<1.5σprior2 或 σ^t2<0.22\hat{\sigma}_t^2 < 0.2^2σ^t2<0.22；
计算覆盖概率：pwin=(σ^t2)−1(σ^t2)−1+(σprior2)−1p_{win} = \frac{(\hat{\sigma}_t^2)^{-1}}{(\hat{\sigma}t^2)^{-1} + (\sigma{prior}^2)^{-1}}pwin=(σ^t2)−1+(σprior2)−1(σ^t2)−1；
随机采样决定是否用新预测覆盖地图。

优势：

遮挡区域的不确定性不会因多次一致预测而降低；
过高置信度的预测若不一致则无法覆盖地图；
高置信度测量可快速响应动态地形变化；
轻量级，适合并行仿真和实时部署。

2.6.3 仿真与部署集成

仿真中：与Isaac Gym集成，1000环境并行下推理时间<0.3 ms，GPU内存~3 GB；
实物中：CPU推理约2.5 ms（ONNX Runtime），总建图时间~5 ms/帧；
里程计：ANYmal-D使用CompSLAM $82$ + Graph-MSF $83$ ；TRON1使用DLIO $84$ 。

2.7 奖励函数设计

奖励函数分为三类（完整列表见表I）：

任务奖励（主要激励）：

位置跟踪 ：rposition_tracking=11+0.25dxy2⋅tmask(4)r_{position\tracking} = \frac{1}{1+0.25d{xy}^2} \cdot t_{mask}(4)rposition_tracking=1+0.25dxy21⋅tmask(4)
航向跟踪 ：rheading_tracking=11+dyaw2⋅tmask(2)⋅1(dxy<0.5)r_{heading\tracking} = \frac{1}{1+d{yaw}^2} \cdot t_{mask}(2) \cdot \mathbf{1}(d_{xy}<0.5)rheading_tracking=1+dyaw21⋅tmask(2)⋅1(dxy<0.5)
向目标移动：鼓励向目标方向移动（速度约束0.3-2 m/s）
目标站立：到达目标后保持稳定站立姿势

正则化奖励（安全性）：

惩罚过度旋转、跳跃、非足端接触、绊倒、打滑、自碰撞

仿真保真度奖励：

惩罚接近关节位置/速度/力矩极限的行为

关键创新 ：不直接奖励或惩罚足端接触位置，而是让全身接触行为自然涌现（如图10、图13中的膝部接触）。

2.8 地形课程与域随机化

地形课程（附录A）：

三类训练地形：密集地形（20%）、攀爬地形（30%）、稀疏地形（50%）；
难度从易到难自适应调节（基于指数移动平均成功率）；
感知噪声课程：前20%迭代从零线性增加到最大噪声；
初始航向课程：从面向目标扩展到随机方向。

域随机化（附录B）：

动力学：有效载荷、摩擦系数、执行器延迟随机化；
观测噪声：各传感器添加均匀噪声；
地图：随机移除点、随机高度值+高不确定性、模拟建图漂移；
部分环境使用完整地图，部分使用部分观测地图（促进地图重用）。

2.9 训练与部署参数

参数	ANYmal-D	TRON1
地图尺寸	36×14 (8 cm分辨率)	18×13 (8 cm分辨率)
地图中心	x=0.6m, y=0	x=0.32m, y=0
训练成本	~60 RTX-4090-days (8 GPU)	~30 RTX-4090-days (4 GPU)
策略频率	50 Hz	50 Hz
推理时间	~2 ms (CPU)	~2 ms (CPU)

三、主要创新点与学术贡献

3.1 创新点总结

序号	创新点	技术内涵	解决的问题
1	AME-2注意力地图编码器	全局特征+局部特征的双路提取，全局上下文调节的注意力机制	在保持泛化性的同时实现高敏捷性
2	不确定性感知神经建图	轻量级CNN预测高程+不确定性，概率赢家通吃融合策略	显式建模遮挡和噪声，支撑学生策略部署
3	统一的教师-学生RL框架	PPO+动作蒸馏+表示损失的联合优化	保持教师性能的同时实现sim-to-real迁移
4	跨平台统一训练	相同奖励函数和训练设置适用于四足和双足	验证方法的通用性

3.2 与现有方法的对比优势

方法类别	代表性工作	敏捷性	泛化性	效率	可解释性	不确定性建模
模型驱动+建图	$2,4$	低-中	中-高	低	高	启发式
RL+经典建图	$13,14,15$	中	中	中	中	部分
RL+学习建图	$29,32,33$	高	低	高	低	有限
端到端视觉策略	$36,38,48$	高	低-中	高	低	隐式
AME-2（本文）	-	高	高	高	中	显式

3.3 关键实验验证结果

1. 敏捷性验证：

ANYmal-D零样本完成先前工作中最难的跑酷和碎石堆地形 $32,48$ （图9）；
TRON1攀爬0.48 m平台、下降0.88 m（优于Unitree H1的0.5 m $17$ ）；
两种机器人峰值前进速度均>1.5 m/s。

2. 泛化性验证（表II-IV）：

教师策略在测试地形上平均成功率95.2%，显著优于AME-1（51.2%）和MoE（45.0%）；
学生策略在测试地形上平均成功率82.4%，显著优于视觉循环策略（51.5%）；
建图模型在测试地形上的L0.5L_{0.5}L0.5损失为0.046，优于仅训练地形的0.088和时间循环模型0.085。

3. 涌现行为：

主动感知：机器人通过与障碍物交互获得新视角，更新地图后成功攀爬（图15）；
局部导航：自主对齐地形、避障（图16）；
全身接触：膝部辅助支撑和攀爬（图10、13）；
冲击减缓：下山时膝部缓冲、落地时缩腿缓冲（图17）。

4. 可解释性（图18）：

局部注意力聚焦于精细地形细节；
全局特征聚焦于地形类型区分性点（障碍边界、平台表面、梁中心）。

3.4 技术贡献的学术意义

从系统层面桥接模块化与端到端设计：
- 保留模块化结构（建图+控制）的可解释性和泛化性；
- 通过端到端RL训练实现高敏捷性；
- AME-2编码器扮演"规划模块"角色，学习任务相关的中间表示。
不确定性显式建模对泛化的重要性：
- 遮挡区域保持高不确定性，而非通过学习先验填鸭式补全；
- 新观测的几何信息可根据预测不确定性决定是否融入地图；
- 支持零样本泛化到未见地形。
统一框架的通用性：
- 四足（ANYmal-D）和双足（TRON1）使用完全相同的奖励函数和训练设置；
- 仅地图尺寸和硬件参数（PD增益、执行器模型）不同；
- 证明了方法的通用性和可扩展性。

四、局限性与未来方向

4.1 当前局限

仅使用2.5D高程地图：不支持完全3D运动（如需要悬垂抓取或跨越的场景）；
严重感知退化场景：高草丛、雪地等环境未充分处理；
动态环境：未显式建模移动物体；
技能转换失败：在训练未见地形上，策略在技能转换阶段（如从稀疏地形减速到攀爬）容易出现失败；
全身接触的硬件压力：膝部接触虽有益于敏捷性，但可能对主要为足端接触设计的硬件造成应力。

4.2 未来研究方向

扩展至3D表示：多层高程地图 $24$ 或基于体素的注意力表示；
场景感知策略切换：结合鲁棒控制器 $14$ 与敏捷控制器，形成单一场景感知策略；
动态环境推理：扩展建图模块以显式建模移动元素；
跨技能泛化：研究可扩展的零样本技能转换学习方法；
更高自由度系统：探索在人形机器人上的应用，处理更多样的全身接触模式。

五、结论

AME-2通过注意力机制驱动的神经地图编码 和不确定性感知的轻量级建图流水线，在腿足机器人的敏捷运动与泛化能力之间建立了新的平衡。该框架在四足和双足平台上均验证了有效性，实现了：

训练未见的复杂地形上的零样本高成功率运动；
峰值速度>1.5 m/s的动态敏捷行为；
主动感知、全身接触、冲击减缓等涌现智能行为；
可解释的注意力特征模式。

该工作为腿足机器人在真实世界中的部署提供了兼具理论深度和工程实用性的解决方案，代表了将模块化系统设计的可解释性 与端到端学习的高性能相结合的重要进展。