Deep Reinforcement Learning for Robotics翻译解读2

1 四足机器人行走控制(Quadruped Locomotion)

四足机器人是 DRL 在现实世界中应用较为成熟的领域之一。已有多家机器人公司(如 ANYbotics、Swiss-Mile 与 Boston Dynamics)将 DRL 集成到其四足控制系统中,应用场景包括工业巡检、末端配送和救援任务。

DRL 首先被用于"盲走"任务,即机器人完全依赖自身本体传感器(如关节角、IMU)在室内平坦地面上行走。这些策略通常通过模拟器训练,然后零样本转移(zero-shot)部署到真实环境中

四足系统的一大挑战在于其复杂的动力学特性带来的模拟-现实差距(sim-to-real gap)。为此,研究者探索了多种缓解策略:

  • a 利用机器人实际数据学习致动器模型(actuator models),以提升仿真器的保真度。该模型可以是解析模型,也可以是神经网络建模;
  • b 在训练过程中引入动力学参数随机化(domain randomization),甚至进一步随机化机器人形态(morphology),以提升策略在不同机器人平台间的泛化能力;
  • c 采用分层控制结构,在低层使用基于模型的控制器,以处理动力学误差与外部扰动,从而增强策略的稳定性与训练效率。

在这类分层结构中,DRL 策略与低层控制器之间的接口可以在多个层次上定义,例如:

  • 关节位置(joint positions)
  • 单腿姿态(leg poses)
  • 步态参数(gait parameters)
  • 宏观动作(macro-actions),即带时间延展性的行为单元

在非结构化地形中的四足运动:应对复杂环境的四类关键技术

随着机器人从受控实验室环境逐步迈向现实世界,它们开始面临更多挑战性的地形,例如不连续地面、可变形表面或湿滑路面。为应对这些额外挑战,发展了四类主要技术路径


1. 不可观测地形信息与策略迁移

在现实中,地形和接触信息往往不可直接观测 ,为此研究者采用了Privileged Learning策略:

  • 首先使用"特权信息"(如真实地形高度)训练一个教师策略;
  • 然后通过蒸馏(distillation)方式,将该策略迁移至只能依赖真实传感器输入的学生策略上。

另一种替代方案是结合状态估计(state estimation)非对称 actor--critic 架构 ,实现端到端训练。在这两类方法中,通常会将一段观测历史序列作为策略输入,以增强感知能力。


2. 训练阶段引入多样性以提升泛化能力

为了提升策略在复杂野外环境中的泛化能力,研究中常采用:

  • 课程学习(Curriculum Learning):在训练中逐步增加任务难度;
  • 高级地形建模方法:如模拟可变形表面的接触力学,提升在复杂接触地形中的性能。

3. 外部感知传感器与高维输入处理

为安全高效地穿越危险地形,外部感知(Exteroceptive)传感器是关键:

  • 常用观测形式包括地形高度图(height map)、深度图像(depth image)和 RGB 图像;
  • 特权学习广泛用于训练能够有效利用这些高维输入的策略;
  • 为缩小模拟-现实间的感知差距,研究中还采用:
    • 添加传感器噪声
    • 深度图像后处理
    • 用真实世界数据学习视觉编码器;
  • 此外,还采用如下方法增强表征能力:
    • 自监督学习(self-supervised learning)
    • 跨模态嵌入匹配(cross-modal embedding)
    • 高容量模型(如 Transformer)

4. 复杂运动技能:跳跃与摔倒恢复

某些极端地形要求机器人具备超出常规步态的高级运动能力:

  • 在稀疏接触区域上行走时,端到端 DRL 策略往往表现不佳。Jenelten 等人提出先用轨迹优化得到期望着地点,再训练 DRL 策略去追踪这些 foothold,提高了精度与稳健性;
  • 跳跃能力拓展了机器人穿越大间隙地形的能力。Yang 等人将 DRL 策略用于生成跳跃轨迹,底层再通过模型控制器进行动态跟踪;
  • 摔倒恢复Fall Recovery在现实 RL 训练中至关重要,可用于自动重置训练流程。已有多项工作针对摔倒恢复训练了专门的 DRL 策略。
多技能策略与现实部署:四足运动研究的拓展方向

为有效将敏捷的运动能力应用于更复杂的下游任务(如跑酷 [Parkour] 等),发展多技能策略Multiskill Policies 至关重要。研究表明,同时学习多种技能也有助于提升策略的鲁棒性

当前有两类主要路径:

  • 一类方法是先分别训练多个专用的技能策略,再训练一个高层策略负责根据环境状态选择最合适的技能;
  • 另一类方法是利用行为克隆(behavior cloning)技术,将多个技能策略蒸馏为一个统一策略
    为避免训练多个专用策略的繁琐流程,一些工作尝试直接构建统一策略(unified policy)
  • Margolis & Agrawa将不同的运动策略编码为一个以步态参数gait parameters为条件输入的策略;
  • Cheng 等人通过联合奖励函数(包含路径点追踪与速度控制项)训练出包含多种跑酷技能的统一策略;
  • Fu 等人发现加入能量最小化项有助于实现平滑的步态过渡;
  • 另一类常见做法是采用动作模仿奖励(motion imitation reward),以学习更自然、多样的运动技能。

算法选择与现实部署策略

就算法而言,目前应用最成熟的四足运动DRL系统,大多采用零样本模拟迁移(zero-shot sim-to-real)策略,并且普遍使用同策略、无模型的强化学习方法 ,如 Proximal Policy Optimization(PPO),其对超参数更具鲁棒性。

然而,在面对时间延展型动作空间 或对确定性控制有更高需求时,Gangapurwala 等人指出,PPO等同策略方法可能不够理想。

近年来,部分研究开始探索少样本适应few-shot adaptation真实环境中直接学习real-world RL的策略更新方式,这包括:

  • 无模型方法(model-free)
  • 基于模型的方法(model-based)
    这些方法利用真实环境的 rollout 数据对策略进行更新,从而在缺乏精确仿真的情况下,增强其在新环境中的泛化能力。
    但值得注意的是,这类现实学习策略目前多仍处于实验室环境验证阶段 ,尚未达到成熟的部署水准。现阶段,最优的现实学习效果(无论是微调策略还是从零开始训练)主要是通过异策略强化学习off-policy RL方法实现的,例如在步行与摔倒恢复任务中的应用。但相比于成熟的 zero-shot 系统,这些方法的测试条件依然较为有限。

图源:Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes,Chen Tang1

相关推荐
訾博ZiBo1 小时前
AI日报 - 2025年4月8日
人工智能
James. 常德 student1 小时前
深度学习之微调
人工智能·深度学习
liuyunshengsir2 小时前
chromadb 安装和使用
人工智能·大模型
FIT2CLOUD飞致云2 小时前
全面支持MCP协议,开启便捷连接之旅,MaxKB知识库问答系统v1.10.3 LTS版本发布
人工智能·开源
云水木石2 小时前
ChatGPT-4o 在汉字显示上进步巨大
人工智能·chatgpt
Mr_LeeCZ2 小时前
PyTorch 深度学习 || 7. Unet | Ch7.1 Unet 框架
人工智能·深度学习·机器学习
不要天天开心2 小时前
Scala集合
图像处理·算法·机器学习·scala
James. 常德 student2 小时前
多GPU训练
人工智能·pytorch·深度学习
Jozky862 小时前
大语言模型在端到端智驾中的应用
人工智能·语言模型·自然语言处理
Y1nhl2 小时前
搜广推校招面经六十六
pytorch·python·深度学习·机器学习·广告算法·推荐算法·搜索算法