论文标题 :DreamWaQ: Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via Deep Reinforcement Learning
解决核心问题:如何在不依赖外部感知(如视觉、LiDAR)的情况下,仅利用本体感知(Proprioception)实现四足机器人在各种复杂非结构化地形(楼梯、斜坡、雪地等)上的鲁棒运动。
1. 背景与问题定义
四足机器人需要在现实世界中穿越复杂地形。现有的控制方法主要面临以下两难境地:
- 依赖外部感知 (Exteroception-based) :
- 使用相机或 LiDAR 构建地形图。
- 缺陷:对环境条件极其敏感(光照变化、雾、灰尘、黑暗环境);计算成本高;存在感知延迟;在出现感知失效时系统脆弱。
- 仅依赖本体感知 (Proprioception-based) :
- 仅使用关节编码器和 IMU 数据。
- 缺陷:传统的"盲视"行走方法通常难以应对高难度的不规则地形(如高台阶、松软雪地),因为机器人无法预知脚下的具体情况,且单纯的反应式控制在极端地形下稳定性不足。
2. 现有方法的局限性 (Related Work & Gaps)
| 方法类别 | 代表性技术 | 主要缺陷/不足 |
|---|---|---|
| 显式系统辨识 (Explicit SysID) | 在线估计物理参数(摩擦力、负载等)输入控制器 | 估计过程通常充满噪声,且很难对复杂的几何地形(如台阶高度)进行显式参数化建模。 |
| 域随机化 (Domain Randomization) | 在仿真中随机化所有物理参数训练一个鲁棒策略 | 策略往往过于保守(为了应对最坏情况),导致运动表现平庸,出现"冻结"或抖动步态。 |
| 隐式系统辨识 (RMA/Privileged Learning) | 教师网络利用特权信息训练,学生网络通过历史观测估计隐变量 | DreamWaQ指出的缺陷:现有的隐式方法(如RMA)生成的隐变量(Latent Representation)往往缺乏明确的物理意义约束,导致学生网络难以从本体感知历史中准确推断出复杂的环境动态。此外,它们通常只关注当前的参数估计,而忽略了对自己未来状态的预测。 |
3. DreamWaQ 的解决方案与方法论
论文提出了一种基于 上下文辅助强化学习 (Context-Aided RL, CoRL) 的框架,核心在于引入了 "隐式地形想象" (Implicit Terrain Imagination) 机制。
3.1 总体架构:教师-学生模型 (Teacher-Student Framework)
系统分为两个阶段训练:
- 教师策略训练 (Oracle Policy):在仿真中利用特权信息训练。
- 学生策略蒸馏 (Student Policy):仅使用本体感知,通过模仿教师的隐空间并预测未来来学习。
3.2 关键组件详解
A. 上下文编码器 (Context Encoder) - Teacher 阶段
- 输入 ( c t c_t ct):特权信息,包括地形高度图 (Height scan)、接触力、摩擦系数、机器人质量中心位置等。
- 结构 :采用 β \beta β-VAE (Variational Autoencoder) 架构。
- 输出 :生成上下文隐变量 z t z_t zt 的分布(均值 μ \mu μ 和方差 σ \sigma σ)。
- 作用 :将复杂的环境物理参数压缩为一个紧凑的低维潜在表示 z t z_t zt。
- 正则化:使用 KL 散度约束潜在空间,使其更平滑,利于学生网络学习。
B. 上下文估计器 (Context Estimator) - Student 阶段
这是论文的核心创新点(DreamWaQ 的 "Dream" 部分)。
- 输入 ( o t h i s t o r y o^{history}_t othistory):仅包含本体感知信息的历史序列(关节位置、速度、IMU 等)。
- 输出 :预测的隐变量 z ^ t \hat{z}_t z^t。
- 辅助任务 (Auxiliary Tasks) :为了强迫 z ^ t \hat{z}_t z^t 包含环境的动力学信息,估计器不仅要逼近教师的 z t z_t zt,还需要完成两个预测任务:
- 预测下一帧状态 ( o ^ t + 1 \hat{o}_{t+1} o^t+1):即"想象"机器人做动作后的状态。
- 预测当前奖励 ( r ^ t \hat{r}_t r^t):评估当前状态的好坏。
C. 策略网络 (Policy Network)
- 输入 :当前本体感知观测 o t o_t ot + 估计的隐变量 z ^ t \hat{z}_t z^t。
- 输出 :动作 a t a_t at(关节位置目标)。
3.3 训练损失函数
总损失函数结合了 RL 损失和监督学习损失:
L t o t a l = L P P O + λ 1 L K L + λ 2 L r e c o n + λ 3 L p r e d + λ 4 L r e w L_{total} = L_{PPO} + \lambda_1 L_{KL} + \lambda_2 L_{recon} + \lambda_3 L_{pred} + \lambda_4 L_{rew} Ltotal=LPPO+λ1LKL+λ2Lrecon+λ3Lpred+λ4Lrew
- L P P O L_{PPO} LPPO: 标准强化学习损失(Actor-Critic)。
- L K L L_{KL} LKL: VAE 的 KL 散度损失(约束隐空间分布)。
- L r e c o n L_{recon} Lrecon : 隐变量重构损失,使学生预测的 z ^ t \hat{z}_t z^t 接近教师的 z t z_t zt。
- L p r e d L_{pred} Lpred (关键) : 下一状态预测损失 ∥ o ^ t + 1 − o t + 1 ∥ 2 \| \hat{o}{t+1} - o{t+1} \|^2 ∥o^t+1−ot+1∥2。这使得网络必须理解地形与机器人交互的动力学模型。
- L r e w L_{rew} Lrew (关键) : 奖励预测损失 ∥ r ^ t − r t ∥ 2 \| \hat{r}_t - r_t \|^2 ∥r^t−rt∥2。
4. 创新点 (Novelty)
-
隐式地形想象 (Implicit Terrain Imagination) :
不同于传统的仅估计环境参数(摩擦力等),DreamWaQ 通过预测 未来观测 和 奖励 ,迫使潜在表示(Latent Space)编码环境与机器人的交互动力学 。这种机制让机器人仿佛在"想象"脚下的地形会如何反作用于自己 。
-
解耦的上下文学习 (Disentangled Context Learning) :
利用 β \beta β-VAE 结构化的潜在空间,相比于普通的 MLP 编码器,生成的隐变量更具鲁棒性,且更容易被仅有本体感知的学生网络所回归。
-
深度的本体感知挖掘 :
证明了仅仅通过本体感知的历史数据,结合动力学预测任务,足以在盲视情况下推断出极其复杂的地形特征(如楼梯边缘、松软地面)。
5. 优势 (Advantages)
- 极高的鲁棒性:在不需要视觉的情况下,能够通过高达 18cm 的台阶、40度的斜坡以及松软的雪地。
- 计算效率高:部署时仅需轻量级的 MLP 网络处理本体感知数据,无需处理复杂的视觉点云或深度图,适合算力受限的移动机器人。
- 抗干扰能力:完全不受光照、烟雾、透明障碍物等视觉干扰因素的影响。
- 平滑的 Sim-to-Real 迁移:由于引入了动力学预测作为辅助任务,模型学到的特征更符合物理规律,从而缩小了仿真与现实的差距。
6. 限制 (Limitations)
- 真正的"盲区":由于缺乏预见性视觉(Preview Vision),机器人无法规划全局路径(例如,它无法看到前方5米处是一堵墙并提前转弯,只能在接触或极接近时做出反应)。
- 特定地形的物理限制:对于那些必须"提前看到才能通过"的地形(例如断裂带、极其稀疏的踏脚石),仅靠本体感知的盲视方法在物理上是无法通过的。
- 状态估计漂移:虽然论文使用了卡尔曼滤波器估计基座速度,但在长时间剧烈打滑的表面(如冰面),仅靠本体感知的速度估计仍可能产生漂移。
7. 实验结果摘要
- 对比基线:相比于 RMA (Rapid Motor Adaptation) 和传统的 PPO,DreamWaQ 在台阶穿越成功率和速度跟踪误差上表现显著更优。
- 消融实验:证明了去除"未来状态预测"或"奖励预测"辅助任务后,机器人在复杂地形上的成功率大幅下降,验证了"想象"机制的重要性。