Deep Reinforcement Learning for Robotics翻译解读2

四足机器人是 DRL 在现实世界中应用较为成熟的领域之一。已有多家机器人公司（如 ANYbotics、Swiss-Mile 与 Boston Dynamics）将 DRL 集成到其四足控制系统中，应用场景包括工业巡检、末端配送和救援任务。

DRL 首先被用于"盲走"任务，即机器人完全依赖自身本体传感器（如关节角、IMU）在室内平坦地面上行走。这些策略通常通过模拟器训练，然后零样本转移（zero-shot）部署到真实环境中。

四足系统的一大挑战在于其复杂的动力学特性带来的模拟-现实差距（sim-to-real gap）。为此，研究者探索了多种缓解策略：

a 利用机器人实际数据学习致动器模型（actuator models），以提升仿真器的保真度。该模型可以是解析模型，也可以是神经网络建模；
b 在训练过程中引入动力学参数随机化（domain randomization），甚至进一步随机化机器人形态（morphology），以提升策略在不同机器人平台间的泛化能力；
c 采用分层控制结构，在低层使用基于模型的控制器，以处理动力学误差与外部扰动，从而增强策略的稳定性与训练效率。

在这类分层结构中，DRL 策略与低层控制器之间的接口可以在多个层次上定义，例如：

随着机器人从受控实验室环境逐步迈向现实世界，它们开始面临更多挑战性的地形，例如不连续地面、可变形表面或湿滑路面。为应对这些额外挑战，发展了四类主要技术路径：

在现实中，地形和接触信息往往不可直接观测 ，为此研究者采用了Privileged Learning策略：

另一种替代方案是结合状态估计（state estimation）和非对称 actor--critic 架构 ，实现端到端训练。在这两类方法中，通常会将一段观测历史序列作为策略输入，以增强感知能力。

为了提升策略在复杂野外环境中的泛化能力，研究中常采用：

为安全高效地穿越危险地形，外部感知（Exteroceptive）传感器是关键：

常用观测形式包括地形高度图（height map）、深度图像（depth image）和 RGB 图像；
特权学习广泛用于训练能够有效利用这些高维输入的策略；
为缩小模拟-现实间的感知差距，研究中还采用：
- 添加传感器噪声
- 深度图像后处理
- 用真实世界数据学习视觉编码器；
此外，还采用如下方法增强表征能力：
- 自监督学习（self-supervised learning）
- 跨模态嵌入匹配（cross-modal embedding）
- 高容量模型（如 Transformer）

某些极端地形要求机器人具备超出常规步态的高级运动能力：

在稀疏接触区域上行走时，端到端 DRL 策略往往表现不佳。Jenelten 等人提出先用轨迹优化得到期望着地点，再训练 DRL 策略去追踪这些 foothold，提高了精度与稳健性；
跳跃能力拓展了机器人穿越大间隙地形的能力。Yang 等人将 DRL 策略用于生成跳跃轨迹，底层再通过模型控制器进行动态跟踪；
摔倒恢复Fall Recovery在现实 RL 训练中至关重要，可用于自动重置训练流程。已有多项工作针对摔倒恢复训练了专门的 DRL 策略。

为有效将敏捷的运动能力应用于更复杂的下游任务（如跑酷 [Parkour] 等），发展多技能策略Multiskill Policies 至关重要。研究表明，同时学习多种技能也有助于提升策略的鲁棒性 。

当前有两类主要路径：

一类方法是先分别训练多个专用的技能策略，再训练一个高层策略负责根据环境状态选择最合适的技能；
另一类方法是利用行为克隆（behavior cloning）技术，将多个技能策略蒸馏为一个统一策略 。
为避免训练多个专用策略的繁琐流程，一些工作尝试直接构建统一策略（unified policy）：
Margolis & Agrawa将不同的运动策略编码为一个以步态参数gait parameters为条件输入的策略；
Cheng 等人通过联合奖励函数（包含路径点追踪与速度控制项）训练出包含多种跑酷技能的统一策略；
Fu 等人发现加入能量最小化项有助于实现平滑的步态过渡；
另一类常见做法是采用动作模仿奖励（motion imitation reward），以学习更自然、多样的运动技能。

就算法而言，目前应用最成熟的四足运动DRL系统，大多采用零样本模拟迁移（zero-shot sim-to-real）策略，并且普遍使用同策略、无模型的强化学习方法 ，如 Proximal Policy Optimization（PPO），其对超参数更具鲁棒性。

然而，在面对时间延展型动作空间 或对确定性控制有更高需求时，Gangapurwala 等人指出，PPO等同策略方法可能不够理想。

近年来，部分研究开始探索少样本适应few-shot adaptation 与真实环境中直接学习real-world RL的策略更新方式，这包括：

无模型方法（model-free）
基于模型的方法（model-based）
这些方法利用真实环境的 rollout 数据对策略进行更新，从而在缺乏精确仿真的情况下，增强其在新环境中的泛化能力。
但值得注意的是，这类现实学习策略目前多仍处于实验室环境验证阶段 ，尚未达到成熟的部署水准。现阶段，最优的现实学习效果（无论是微调策略还是从零开始训练）主要是通过异策略强化学习off-policy RL方法实现的，例如在步行与摔倒恢复任务中的应用。但相比于成熟的 zero-shot 系统，这些方法的测试条件依然较为有限。

图源：Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes，Chen Tang1