🦿 四足机器人运动控制中奖励函数设计的演进与对比分析:从脚部空中时间启发式到步态相位建模
1. 引言:范式转移与技术路线
在过去十年中,四足机器人的运动控制领域经历了从基于模型的预测控制(MPC) 向 数据驱动的强化学习(RL) 的范式转移[1](#1)。这一转变的核心在于如何将复杂的物理规律和期望的运动特性转化为强化学习算法可以优化的标量奖励函数。当前学术界与工业界存在两种截然不同但在技术上互补的路线:
- 脚部空中时间(Airtime)奖励路线 :以 legged_gym 为代表,追求算法的简约性与运动行为的自然涌现
- 步态相位建模(Gait Phase Modeling)路线 :以 walk-these-ways (WTW) 为代表,强调对机器人运动样式的精细控制和多行为能力的解耦
2. 强化学习运动控制的理论框架
四足机器人的运动任务通常被建模为部分可观测马尔可夫决策过程(POMDP):
M = ( S , A , P , R , γ ) M = (S, A, P, R, \gamma) M=(S,A,P,R,γ)
其中,奖励函数 R R R 是定义任务目标的关键信号。在四足行走任务中,机器人需要在保持平衡的同时追踪指令速度,并尽量降低能量损耗。
2.1 奖励函数的设计原则
奖励函数的设计直接决定了策略的收敛速度和部署后的鲁棒性。传统设计包含多个组件:
- 速度追踪项
- 姿态保持项
- 关节限制项
- 平滑度约束项
然而,单纯的速度追踪奖励往往不足以产生稳定的步态,这导致研究者必须引入辅助奖励(Auxiliary Rewards)来诱导机器人产生特定的步态频率和相位关系。
3. 脚部空中时间奖励路线
legged_gym 项目由苏黎世联邦理工学院(ETH Zurich)机器人系统实验室(RSL)开发,已成为四足机器人强化学习的工业标准基准平台 [2](#2)。
3.1 空中时间奖励的机制与数学表达
脚部空中时间奖励(Feet Airtime Reward)的逻辑非常直观:当机器人的脚部在空中停留的时间超过预设阈值且成功着地时给予奖励。其数学表达为:
r a i r = ∑ i = 1 4 ( t a i r , i − t t h r e s h o l d ) ⋅ I c o n t a c t , i r_{air} = \sum_{i=1}^{4}(t_{air,i} - t_{threshold}) \cdot I_{contact,i} rair=i=1∑4(tair,i−tthreshold)⋅Icontact,i
其中:
- t a i r , i t_{air,i} tair,i:第 i i i 条腿处于摆动相的时间
- I c o n t a c t , i I_{contact,i} Icontact,i:地面接触指示函数(仅在脚部触地瞬间激活)
- t t h r e s h o l d t_{threshold} tthreshold:最小有效摆动时间阈值(通常设为 0.1 秒)
3.2 涌现行为与鲁棒性
在 legged_gym 框架下,步态(通常是小跑,Trot)不是显式设计的,而是作为速度追踪和空中时间奖励之间的最优平衡点"涌现"出来。研究表明,为了在最小化足端冲击和能量消耗的同时最大化空中时间,对角线步态往往是强化学习算法发现的局部最优解。这种设计在复杂地形(如楼梯、乱石坡)中表现出卓越的适应性,因为机器人可以自由地改变步态频率或产生非对称运动。
4. 步态相位建模路线
由 MIT Improbable AI 实验室开发的 walk-these-ways (WTW) 项目代表了另一种设计理念:通过显式的相位指导实现对机器人行为的精准刻画 [3](#3)。
4.1 步态相位跟踪与 Raibert 启发式
WTW 的核心在于引入了四个去中心化的相位振荡器(Phase Oscillators),每条腿对应一个。其奖励函数高度依赖于当前相位状态:
-
摆动相位跟踪奖励:当相位指示该腿应处于摆动相时,惩罚任何地面接触力和足端速度:
r s w i n g = − λ s w i n g ⋅ [ 1 − C f o o t c m d ( θ c m d , t ) ] ⋅ exp ( − ∥ f f o o t ∥ 2 / σ c f ) r^{swing} = -\lambda_{swing} \cdot [1 - C^{cmd}{foot}(\theta^{cmd}, t)] \cdot \exp(-\|f{foot}\|^2/\sigma_{cf}) rswing=−λswing⋅[1−Cfootcmd(θcmd,t)]⋅exp(−∥ffoot∥2/σcf)
-
支撑相位跟踪奖励:当相位指示该腿应处于支撑相时,惩罚足端的相对位移:
r s t a n c e = − λ s t a n c e ⋅ C f o o t c m d ( θ c m d , t ) ⋅ exp ( − ∥ v x y f o o t ∥ 2 / σ c v ) r^{stance} = -\lambda_{stance} \cdot C^{cmd}{foot}(\theta^{cmd}, t) \cdot \exp(-\|v^{foot}{xy}\|^2/\sigma_{cv}) rstance=−λstance⋅Cfootcmd(θcmd,t)⋅exp(−∥vxyfoot∥2/σcv)
-
Raibert 启发式足端位置奖励:计算期望的足端落点:
p f , f o o t x , y , c m d = p f o o t b a s e + K p ( v c m d − v c u r r e n t ) × T s t a n c e p^{x,y,cmd}{f,foot} = p^{base}{foot} + K_p (v^{cmd} - v^{current}) \times T_{stance} pf,footx,y,cmd=pfootbase+Kp(vcmd−vcurrent)×Tstance
4.2 行为的多样性与可调控性
WTW 引入了"行为多样性"(Multiplicity of Behavior, MoB)的概念。通过将步态参数(步频、摆动高度、身体高度、足端宽度)作为策略的条件输入,模型能够学习到一个参数化的控制空间。这使得用户可以在部署时实时调整机器人的姿态,例如让机器人保持极低姿态匍匐前进,或者像舞蹈一样高频率踏步。
5. 性能表现与效果对比
关于"哪种效果更好"的问题,不能一概而论,需要根据应用场景进行评估。
5.1 场景化效果对比
| 评估维度 | 空中时间奖励 (Airtime) | 步态相位建模 (Phase) | 优胜者 |
|---|---|---|---|
| 训练收敛速度 | 较快(初期探索随机) | ⭐ 极快(先验引导强) | Phase |
| 极端地形鲁棒性 | ⭐ 极高(允许步态畸变) | 一般(可能受相位约束) | Airtime |
| 行为多样性 | 低(基本只有小跑) | ⭐ 高(支持多种步态) | Phase |
| 能量利用效率 | 中(取决于权重平衡) | ⭐ 高(可针对特定速度优化) | Phase |
| 实机部署简易度 | ⭐ 极易(自适应能力强) | 较难(需要相位同步) | Airtime |
5.2 马尔可夫性与搜索空间的权衡
-
马尔可夫特性的修复 :空中时间奖励在某种程度上"破坏"了任务的马尔可夫性,因为策略网络仅凭当前关节角度难以判断当前处于周期的位置。步态相位建模通过在状态空间中显式添加相位变量(如 sin ( ϕ ) \sin(\phi) sin(ϕ) 和 cos ( ϕ ) \cos(\phi) cos(ϕ))修复了这一问题。
-
搜索空间的受限性:相位建模是一把双刃剑。显式步态相位跟踪奖励在搜索空间中划定了"走廊",如果机器人所在的实际地形(如松软沙地)使得按照该相位行走会导致翻车,相位奖励就会与生存奖励发生冲突。空中时间奖励则像是在搜索空间中设置"引力场",不强制路径但通过正向引导让机器人自发靠近合理区域。
🏁 6. 总结
在四足机器人强化学习领域,脚部空中时间奖励因其实现的简洁性和极强的地形适应能力,在开源代码和前沿论文中占据了主导地位 。对于大多数开发者而言,这一技术路线确实"已经足够用",尤其是在使用了 legged_gym 这种成熟框架的情况下,机器人能够快速学习到具有实战意义的稳定步态 。
然而,walk-these-ways 所代表的相位建模路线绝非过时,它是通往更高级别行为智能的必经之路 。它所提供的对步态周期的显式控制,是实现能量最优控制、复杂行为组合和精准人机交互的基石 。因此,对于追求通用稳健性的项目,应首选空中时间奖励路线;而对于追求敏捷极限、多样化表达和精准样式的项目,则必须引入步态相位建模的技术手段。
结论一:通用应用场景,空中时间奖励"足够用"
如果你的应用场景是 :工地巡检、实验室测试或作为移动底座,空中时间奖励配合良好的速度追踪和姿态惩罚,已能提供 90% 以上场景所需的运动能力。这种方案开发成本最低,且与现有开源工具链结合最紧密。
结论二:特定需求场景,相位建模不可或缺
如果需要以下能力,必须引入步态相位建模:
- 多模态切换:需在行走、跳跃、疾驰间平滑过渡
- 仿生/艺术展示:需严格复刻生物步态或配合音乐韵律
- 能效极限:需强制锁定在能量最优的特定相位
结论三:未来趋势是"融合"
前沿研究(2024-2025)正走向融合:以 Airtime 预训练获得基础鲁棒性,以 Phase 微调获得精细样式。这种分层或混合策略将结合底层的环境适应力与高层的行为表达力。最新进展包括:
- 奖励机器(Reward Machines):将相位表示为可根据环境动态调整的逻辑状态
- 层级强化学习:高层控制器设定步态参数,底层控制器执行具体运动
- 特权信息蒸馏:将复杂的相位先验知识蒸馏到更鲁棒的端到端网络中
7. 参考资源
核心论文
- Legged Gym (ETH): Rudin et al., 2022 - Learning to Walk in Minutes
- Walk These Ways (MIT): Margolis et al., 2023 - Multiplicity of Behavior
- Deep RL Survey: Schindler & Zweimüller, 2022 - A Comprehensive Review
前沿进展
- Extreme Parkour: Cheng et al., 2024 - End-to-End Parkour Skills
- MuJoCo Playground: Huang et al., 2025 - Rapid Training Framework
- DreamWaQ: Kim et al., 2023 - Blind Quadrupedal Locomotion
开源实现
- Unitree RL Gym: Official RL Framework for Go2
- Walk These Ways for Go2: Community Port to Go2 Platform
- Reward Machines: Logical Rules for Quadruped Locomotion
** 实践建议**:对于初学者,建议从 legged_gym 开始,掌握基础后再探索 walk-these-ways 。在实际部署时,可考虑两者的融合方案,以实现通用稳健性与精细控制的平衡。
[
-
Rudin, N., Hoeller, D., Reist, P., & Hutter, M. (2022). Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning. In Proceedings of the Conference on Robot Learning (CoRL) . https://arxiv.org/abs/2109.11978 ↩︎
-
Lee, J., Hwangbo, J., Wellhausen, L., Koltun, V., & Hutter, M. (2020). Learning quadrupedal locomotion over challenging terrain. Science Robotics , 5(47), eabc5986. https://doi.org/10.1126/scirobotics.abc5986 ↩︎
-
Margolis, G. B., & Agrawal, P. (2023). Walk These Ways: Tuning Robot Control for Generalization with Multiplicity of Behavior. In Proceedings of the Conference on Robot Learning (CoRL) . https://arxiv.org/abs/2212.03238 ↩︎