1 四足机器人行走控制(Quadruped Locomotion)
四足机器人是 DRL 在现实世界中应用较为成熟的领域之一。已有多家机器人公司(如 ANYbotics、Swiss-Mile 与 Boston Dynamics)将 DRL 集成到其四足控制系统中,应用场景包括工业巡检、末端配送和救援任务。
DRL 首先被用于"盲走"任务,即机器人完全依赖自身本体传感器(如关节角、IMU)在室内平坦地面上行走。这些策略通常通过模拟器训练,然后零样本转移(zero-shot)部署到真实环境中。
四足系统的一大挑战在于其复杂的动力学特性带来的模拟-现实差距(sim-to-real gap)。为此,研究者探索了多种缓解策略:
- a 利用机器人实际数据学习致动器模型(actuator models),以提升仿真器的保真度。该模型可以是解析模型,也可以是神经网络建模;
- b 在训练过程中引入动力学参数随机化(domain randomization),甚至进一步随机化机器人形态(morphology),以提升策略在不同机器人平台间的泛化能力;
- c 采用分层控制结构,在低层使用基于模型的控制器,以处理动力学误差与外部扰动,从而增强策略的稳定性与训练效率。
在这类分层结构中,DRL 策略与低层控制器之间的接口可以在多个层次上定义,例如:
- 关节位置(joint positions)
- 单腿姿态(leg poses)
- 步态参数(gait parameters)
- 宏观动作(macro-actions),即带时间延展性的行为单元
在非结构化地形中的四足运动:应对复杂环境的四类关键技术
随着机器人从受控实验室环境逐步迈向现实世界,它们开始面临更多挑战性的地形,例如不连续地面、可变形表面或湿滑路面。为应对这些额外挑战,发展了四类主要技术路径:
1. 不可观测地形信息与策略迁移
在现实中,地形和接触信息往往不可直接观测 ,为此研究者采用了Privileged Learning策略:
- 首先使用"特权信息"(如真实地形高度)训练一个教师策略;
- 然后通过蒸馏(distillation)方式,将该策略迁移至只能依赖真实传感器输入的学生策略上。
另一种替代方案是结合状态估计(state estimation)和非对称 actor--critic 架构 ,实现端到端训练。在这两类方法中,通常会将一段观测历史序列作为策略输入,以增强感知能力。
2. 训练阶段引入多样性以提升泛化能力
为了提升策略在复杂野外环境中的泛化能力,研究中常采用:
- 课程学习(Curriculum Learning):在训练中逐步增加任务难度;
- 高级地形建模方法:如模拟可变形表面的接触力学,提升在复杂接触地形中的性能。
3. 外部感知传感器与高维输入处理
为安全高效地穿越危险地形,外部感知(Exteroceptive)传感器是关键:
- 常用观测形式包括地形高度图(height map)、深度图像(depth image)和 RGB 图像;
- 特权学习广泛用于训练能够有效利用这些高维输入的策略;
- 为缩小模拟-现实间的感知差距,研究中还采用:
- 添加传感器噪声
- 深度图像后处理
- 用真实世界数据学习视觉编码器;
- 此外,还采用如下方法增强表征能力:
- 自监督学习(self-supervised learning)
- 跨模态嵌入匹配(cross-modal embedding)
- 高容量模型(如 Transformer)
4. 复杂运动技能:跳跃与摔倒恢复
某些极端地形要求机器人具备超出常规步态的高级运动能力:
- 在稀疏接触区域上行走时,端到端 DRL 策略往往表现不佳。Jenelten 等人提出先用轨迹优化得到期望着地点,再训练 DRL 策略去追踪这些 foothold,提高了精度与稳健性;
- 跳跃能力拓展了机器人穿越大间隙地形的能力。Yang 等人将 DRL 策略用于生成跳跃轨迹,底层再通过模型控制器进行动态跟踪;
- 摔倒恢复Fall Recovery在现实 RL 训练中至关重要,可用于自动重置训练流程。已有多项工作针对摔倒恢复训练了专门的 DRL 策略。
多技能策略与现实部署:四足运动研究的拓展方向
为有效将敏捷的运动能力应用于更复杂的下游任务(如跑酷 [Parkour] 等),发展多技能策略Multiskill Policies 至关重要。研究表明,同时学习多种技能也有助于提升策略的鲁棒性 。
当前有两类主要路径:
- 一类方法是先分别训练多个专用的技能策略,再训练一个高层策略负责根据环境状态选择最合适的技能;
- 另一类方法是利用行为克隆(behavior cloning)技术,将多个技能策略蒸馏为一个统一策略 。
为避免训练多个专用策略的繁琐流程,一些工作尝试直接构建统一策略(unified policy): - Margolis & Agrawa将不同的运动策略编码为一个以步态参数gait parameters为条件输入的策略;
- Cheng 等人通过联合奖励函数(包含路径点追踪与速度控制项)训练出包含多种跑酷技能的统一策略;
- Fu 等人发现加入能量最小化项有助于实现平滑的步态过渡;
- 另一类常见做法是采用动作模仿奖励(motion imitation reward),以学习更自然、多样的运动技能。
算法选择与现实部署策略
就算法而言,目前应用最成熟的四足运动DRL系统,大多采用零样本模拟迁移(zero-shot sim-to-real)策略,并且普遍使用同策略、无模型的强化学习方法 ,如 Proximal Policy Optimization(PPO),其对超参数更具鲁棒性。
然而,在面对时间延展型动作空间 或对确定性控制有更高需求时,Gangapurwala 等人指出,PPO等同策略方法可能不够理想。
近年来,部分研究开始探索少样本适应few-shot adaptation 与真实环境中直接学习real-world RL的策略更新方式,这包括:
- 无模型方法(model-free)
- 基于模型的方法(model-based)
这些方法利用真实环境的 rollout 数据对策略进行更新,从而在缺乏精确仿真的情况下,增强其在新环境中的泛化能力。
但值得注意的是,这类现实学习策略目前多仍处于实验室环境验证阶段 ,尚未达到成熟的部署水准。现阶段,最优的现实学习效果(无论是微调策略还是从零开始训练)主要是通过异策略强化学习off-policy RL方法实现的,例如在步行与摔倒恢复任务中的应用。但相比于成熟的 zero-shot 系统,这些方法的测试条件依然较为有限。
图源:Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes,Chen Tang1