End-to-End Safe RL:通过控制屏障函数实现安全关键连续控制任务的端到端安全强化学习
摘要
强化学习算法在模拟应用之外的成功有限,一个主要原因是学习过程中缺乏安全保证。真实世界的系统在最优控制器被学习到之前就会发生故障或损坏。
本文提出了一种控制器架构,结合了三个核心组件:
- 无模型 RL 控制器
- 基于控制屏障函数(Control Barrier Function, CBF) 的模型控制器
- 未知系统动力学的在线学习(高斯过程)
主要贡献
- 开发了首个将 CBF 与无模型 RL 集成的端到端安全 RL 算法(RL-CBF)
- 保证学习过程中的安全(高概率)
- 提高策略探索效率
- 在倒立摆和自动驾驶跟车任务上验证有效性
1. 研究背景与动机
1.1 强化学习的困境
| 问题 | 说明 |
|---|---|
| 探索不安全行为 | RL 为最大化长期回报,在学习过程中可能探索危险动作 |
| 硬件部署困难 | 不安全策略可能损坏硬件或伤害人类 |
| 成功局限 | 多数 RL 成功案例局限于仿真环境 |
1.2 现有 Safe RL 方法的局限
| 方法类别 | 代表工作 | 局限 |
|---|---|---|
| 无模型 Safe RL | 奖励塑形、约束策略优化 | 安全仅在学习充分后近似保证,初始阶段不安全 |
| 基于模型的方法 | Lyapunov、MPC | 未解决探索和性能优化问题 |
| 备份控制器切换 | Perkins, Mannucci | 过度约束策略探索 |
| 屏障补偿 | Fisac, Gillula | 备份控制器不引导学习过程 |
1.3 核心问题
能否在 RL 学习过程中端到端保证安全 ,同时高效探索最优策略?
关键洞察:即使只有较差的标称模型,CBF 也能保证安全。结合在线模型学习(GP),CBF 会逐渐变得不那么保守,最终让位于高性能的 RL 控制器。
2. 预备知识
2.1 系统模型
考虑如下离散时间控制系统:
下一时刻状态 = 标称无驱动项 + 标称驱动项 × 控制量 + 未知动力学项
其中:
- 标称无驱动项:已知的标称模型中被动物理部分
- 标称驱动项:已知的标称模型中控制输入对状态的映射
- 未知动力学项:需要在线学习的未知部分(如摩擦力、未建模动态)
标称模型可以很差(例如完全忽略摩擦和结构柔性的机器人模型)
2.2 强化学习
目标:最大化期望折扣累计奖励。
标准定义:
| 函数 | 符号 | 含义 |
|---|---|---|
| 动作价值函数 | Q | 从当前状态采取某动作后的期望累计回报 |
| 状态价值函数 | V | 从当前状态开始的期望累计回报 |
| 优势函数 | A | Q 与 V 的差值,衡量某动作相对于平均水平的优势 |
本文使用的 RL 算法:
- DDPG:离线 actor-critic 方法
- TRPO:在线策略梯度方法,带有信任区域约束
2.3 高斯过程(Gaussian Process, GP)
用于估计未知动力学及其不确定性:
| 输出 | 含义 |
|---|---|
| 均值 | 对未知函数的最佳估计 |
| 方差 | 估计的不确定性(置信区间) |
| 95% 置信区间 | 均值 ± 2 × 标准差 |
GP 的关键优势 :随着数据积累,不确定性自适应缩小 ,使 CBF 控制器逐渐变得不那么保守。
测量数据生成:
- 从实际观测中反推未知动力学的数值
- 公式:未知动力学 = 下一状态 - 标称无驱动项 - 标称驱动项 × 控制量
2.4 控制屏障函数(Control Barrier Function, CBF)
安全集定义:所有满足 h(状态) ≥ 0 的状态构成安全区域。
离散时间 CBF 条件:存在一个参数 η(0 到 1 之间),使得对于安全区域内的所有状态,都能找到一个控制量,满足:
- 下一时刻的 h 值 ≥ (1-η) × 当前时刻的 h 值
直观理解:安全裕度不会恶化,保证系统永远不离开安全区域。
本文设定 :采用仿射(线性)屏障函数,即 h(状态) = 线性系数向量 · 状态 + 常数。这意味安全区域是由多个线性不等式围成的凸多边形(如长方体、多面体等)。
结合 GP 的 CBF 约束:在计算控制量时,需要保证即使在最坏情况下的动力学不确定性下,安全条件仍然满足。这被表述为一个带约束的优化问题。
3. 方法:RL-CBF
3.1 两种架构对比
| 维度 | 补偿式 CBF(前人工作) | 引导式 CBF(本文) |
|---|---|---|
| 控制器形式 | RL 策略 + 当前 CBF 补偿 | RL 策略 + 所有历史 CBF 补偿 + 当前 CBF 补偿 |
| 学习更新基础 | 围绕可能不安全的 RL 策略 | 围绕已经安全部署的控制器 |
| 探索效率 | 低 | 高 |
| 安全保证 | 有 | 有 |
补偿式的问题:RL 控制器可能频繁提议危险动作,CBF 每次都去补偿,但 RL 更新却围绕危险策略进行,学习效率低。
引导式的优势 :将之前所有的 CBF 补偿量累加到 RL 策略中,使 RL 更新围绕实际安全部署的控制器进行,从而更高效地学习安全策略。
3.2 关键算法:RL-CBF
引导式控制器定义:
- 第 k 次迭代的控制器 = 当前 RL 策略 + 所有历史 CBF 补偿量之和 + 当前 CBF 补偿量
其中当前 CBF 补偿量通过求解一个带约束的优化问题得到。
优化问题的核心:
- 目标:找到最小的 CBF 补偿量,以及最小的安全违反松弛量
- 约束:强制要求补偿后的总体控制量必须满足 CBF 安全条件(同时考虑 GP 估算的动力学不确定性)
安全性保证:
| 情况 | 结论 |
|---|---|
| 松弛量为 0 | 安全集以高概率(1-δ)保持前向不变 |
| 松弛量 > 0 但有界 | 扩大后的安全集以高概率(1-δ)保持前向不变 |
性能保证(使用 TRPO 时):策略性能的下降有理论上界。
3.3 计算高效的近似实现
问题:原始控制器需要存储所有历史 CBF 网络,计算量随迭代次数线性增长,无法工程实现。
解决方案 :用一个单一神经网络 ,通过监督学习来拟合历史上所有 CBF 补偿量的总和。
最终控制器:
- 第 k 次迭代的控制器 = 当前 RL 策略 + 历史 CBF 拟合网络 + 当前 CBF 补偿量
优势:内存中仅需保存 2 个神经网络,每次控制仅需求解 1 个优化问题,计算效率极高。
安全保证不变:最外层的 CBF 补偿量仍然在线求解 CBF 约束,因此安全性仍然有保证。
3.4 算法流程
text
Algorithm 1: RL-CBF
第 0 次迭代(初始化):
1. 初始化 RL 策略、状态、空数据集
2. 对当前轨迹的每一步:
3. 采样(但不部署)RL 控制量
4. 求解 CBF 补偿量
5. 部署总控制量 = RL 控制量 + CBF 补偿量
6. 存储数据
7. 观测并收集奖励
8. 用新数据更新 GP 模型
第 k 次迭代(k ≥ 1):
9. 用 RL 算法更新策略
10. 训练历史 CBF 拟合网络
11. 对当前轨迹的每一步:
12. 采样 RL 控制量 + 历史 CBF 拟合值
13. 求解当前 CBF 补偿量
14. 部署总控制量 = RL 控制量 + 历史 CBF 拟合值 + 当前 CBF 补偿量
15. 存储数据
16. 观测并收集奖励
17. 用新数据更新 GP 模型
输出:RL 策略网络、历史 CBF 拟合网络、CBF 控制器
4. 实验
4.1 倒立摆实验
设置:
- OpenAI gym 倒立摆环境
- 安全集:角度在 -1, 1 弧度范围内
- 标称模型有 40% 参数误差
结果:
| 指标 | 标准 RL(TRPO/DDPG) | RL-CBF(TRPO-CBF/DDPG-CBF) |
|---|---|---|
| 收敛速度 | 慢 | 快 |
| 最终性能 | 有时好(不稳定) | 稳定高 |
| 学习过程安全性 | 严重违反 | 始终安全 |
关键观察:
- 初始策略 :CBF 将钟摆维持在安全区域边界(施加最小干预保证安全)
- 最终策略 :CBF 完全不激活,RL 已完全学会安全的最优策略
4.2 自动驾驶跟车实验
设置:
- 5 辆车的队列,控制第 4 辆车的加减速
- 目标:拥堵交通中最大化燃油效率 并避免碰撞
- 硬约束:车距 ≥ 2 米(CBF 保证)
- 软约束:车距 ≥ 3 米(奖励函数引导)
未知因素:
- 自身车辆动力学参数不准确
- 前后车驾驶员行为:无精确模型
- 系统受高斯噪声干扰
结果:
| 指标 | 标准 RL(TRPO/DDPG) | RL-CBF(TRPO-CBF/DDPG-CBF) |
|---|---|---|
| 安全性 | 几乎所有试验都有碰撞 | 全程无安全违反 |
| 学习速度 | 慢 | 快 |
| 最终性能 | 不稳定 | 稳定 |
即使 DDPG-CBF 没有收敛到最优策略,它也始终保证安全------这是 RL-CBF 架构的核心优势。
5. 核心创新总结
| 创新点 | 说明 |
|---|---|
| RL + CBF + GP 三位一体 | 首次将 CBF 与无模型 RL 集成,实现端到端安全 RL |
| 引导式 CBF 架构 | 历史 CBF 累加到 RL 策略中,学习围绕安全策略进行 |
| 近似实现 | 单一网络拟合历史 CBF,保证安全的同时提高计算效率 |
| 高概率安全保证 | 利用 GP 不确定性量化,提供有理论保证的安全 |
| 模型无关 | 框架可与任何无模型 RL 算法(TRPO、DDPG 等)集成 |
6. 与现有方法的关键区别
| 维度 | 现有 Safe RL | RL-CBF(本文) |
|---|---|---|
| 安全保证 | 仅学习充分后近似 | 学习全过程高概率保证 |
| 对模型的要求 | 通常需要准确模型 | 仅需较差标称模型 |
| 探索效率 | 低或中等 | 高(CBF 引导) |
| CBF 的角色 | 仅安全补偿 | 安全补偿 + 学习引导 |
| 硬件部署 | 风险高 | 可直接部署 |
7. 局限性与未来方向
| 局限性 | 未来方向 |
|---|---|
| 需要预先给定有效的安全集 | 在线学习或自动构建安全集 |
| 仅支持线性屏障函数 | 扩展到更一般的非线性 CBF |
| GP 在大规模数据下计算昂贵 | 稀疏 GP、局部 GP、具备不确定性的神经网络 |
| 近似方法可能导致性能保证不成立 | 为近似方法推导性能界 |
8. 结论
本文提出的 RL-CBF 框架是首个将 CBF 与无模型 RL 集成的端到端安全 RL 方法,核心价值在于:
| 价值 | 说明 |
|---|---|
| 安全保证 | 学习全过程高概率安全,可直接部署硬件 |
| 高效探索 | CBF 引导策略探索,大幅加速学习 |
| 模型鲁棒性 | 仅需较差标称模型,通过 GP 在线学习补偿 |
| 通用性 | 可与任何无模型 RL 算法集成 |
实验表明,在倒立摆和自动驾驶跟车任务中,RL-CBF 显著优于标准 RL 算法,在保证安全的同时实现更快、更优的学习。
9. 资源
- 📄 论文标题:End-to-End Safe Reinforcement Learning through Barrier Functions for Safety-Critical Continuous Control Tasks
- 👨🔬 作者:Richard Cheng, Gábor Orosz, Richard M. Murray, Joel W. Burdick
- 🏛️ 机构:加州理工学院(Caltech)+ 密歇根大学安娜堡分校
- 🏛️ 会议:AAAI 2019
- 💻 代码:https://github.com/rcheng805/RL-CBF