RL-Driven MPPI：基于离线策略加速在线控制律计算的模型预测路径积分控制

文献信息

标题：RL-Driven MPPI: Accelerating Online Control Laws Calculation With Offline Policy
作者：Yue Qu, Hongqing Chu, Shuhua Gao, Jun Guan, Haoqi Yan, Liming Xiao, Shengbo Eben Li, Jingliang Duan
发表：IEEE Transactions on Intelligent Vehicles, 2023

一、研究背景与关键科学问题

1.1 最优控制方法概述

最优控制方法是众多复杂控制与决策任务的核心技术，其目标是通过求解由预设代价函数和系统动力学定义的优化问题，找到最优控制律序列。传统最优控制方法，如线性二次调节器（LQR），在处理线性系统时表现优异，但面对非线性系统时存在明显局限。

现有非线性系统优化方法，包括近似动态规划、迭代LQR、内点法及基于梯度下降的方法，对代价函数的连续性和可导性有严格要求。这一限制显著降低了代价函数设计的灵活性，同时也难以在计算资源有限的情况下处理复杂高维系统的最优解求解问题。

1.2 强化学习方法的优势与局限

强化学习（RL）作为一类重要的离线方法，能够直接通过与复杂系统交互采集的样本学习参数化策略。RL的核心优势在于：

无需导数信息：样本形式为（状态、动作、代价）的元组，不要求代价函数或动力学模型可导
支持灵活代价设计：可处理非光滑甚至不连续的代价函数
** Actor-Critic架构**：Actor代表待学习的参数化策略，Critic表征价值函数

主流的连续控制强化学习算法包括DDPG、PPO、SAC及DSAC等，已在仿真任务中取得显著成功。然而，RL在实际应用中的推广仍面临重大挑战：作为离线方法，习得策略在未参与离线训练的状态下可能表现灾难性地差。

1.3 模型预测路径积分控制（MPPI）

MPPI是消除模型复杂性和代价连续性限制的另一重要途径。其核心思想基于Feynman-Kac引理，将有限时域最优代价-to-go表示为所有可能未来轨迹的期望，通过从初始状态出发的rollouts估计该期望，进而生成控制序列的更新律。

MPPI作为基于采样的MPC方法，在每个时间步通过在线rollouts样本学习最优控制输入。其优势在于可保证任意可行状态下的控制性能，但劣势在于在线计算过程耗时严重，尤其是对于高维动力学系统和长预测时域。

1.4 核心挑战

现有MPPI方法面临的主要问题是：控制性能和在线计算效率高度依赖于rollouts的质量。然而，使用随机控制序列难以采样到低成本轨迹，特别是在高维动力学系统和长预测时域场景下。这一根本性缺陷导致传统MPPI面临样本效率低、收敛速度慢的困境。

二、研究方法与算法原理

2.1 问题建模

考虑一般时不变离散时间动态系统：

xi+1=f(xi,vi)x_{i+1} = f(x_i, v_i)xi+1=f(xi,vi)

其中 xi∈X⊂Rnx_i \in \mathcal{X} \subset \mathbb{R}^nxi∈X⊂Rn 为状态，vi∈U⊂Rmv_i \in \mathcal{U} \subset \mathbb{R}^mvi∈U⊂Rm 为控制输入，f:Rn×Rm→Rnf: \mathbb{R}^n \times \mathbb{R}^m \rightarrow \mathbb{R}^nf:Rn×Rm→Rn 为系统动力学函数（可为一般非线性且输入非仿射）。

控制输入服从对角高斯分布：

vt∼N(ut,σ2)v_t \sim \mathcal{N}(u_t, \sigma^2)vt∼N(ut,σ2)

本文研究两类常用 formulations：

（1）折扣无限时域（InfH）最优控制

πInfH∗(xt):=min⁡{ui,σi}=π(xi)E $\sumi=t\inftyγi-tl(xi)$ \pi^*{\text{InfH}}(x_t) := \min{\{u_i,\sigma_i\} = \pi(x_i)} \mathbb{E}\left $\\sum_{i=t}\^{\\infty} \\gamma\^{i-t} l(x_i)\\right$ πInfH∗(xt):={ui,σi}=π(xi)minE $i=t\sum\inftyγi-tl(xi)$

其中 π(xi)\pi(x_i)π(xi) 为策略函数，γ∈(0,1)\gamma \in (0,1)γ∈(0,1) 为折扣因子。

（2）基于有限时域（FH）优化的模型预测控制（MPC）

在每个时间步 ttt，通过求解以下优化问题找到最优控制序列：

min⁡U,ΣVU,ΣFH(xt):=E $\sumi=tt+N-1l(xi)+T(xt+N)$ \min_{U,\Sigma} V^{\text{FH}}_{U,\Sigma}(x_t) := \mathbb{E}\left $\\sum_{i=t}\^{t+N-1} l(x_i) + T(x_{t+N})\\right$ U,ΣminVU,ΣFH(xt):=E $i=t\sumt+N-1l(xi)+T(xt+N)$

其中 U={ut,ut+1,...,ut+N−1}U = \{u_t, u_{t+1}, \ldots, u_{t+N-1}\}U={ut,ut+1,...,ut+N−1}，Σ={σt2,σt+12,...,σt+N−12}\Sigma = \{\sigma_t^2, \sigma_{t+1}^2, \ldots, \sigma_{t+N-1}^2\}Σ={σt2,σt+12,...,σt+N−12}，NNN 为预测时域，T(xt+N)T(x_{t+N})T(xt+N) 为终端代价。

2.2 离线强化学习训练模块

本文采用分布软演员-评论家算法（DSAC） 作为离线RL训练方法。DSAC通过学习无限时域代价的分布来提高期望代价估计精度，从而改善策略性能。

状态-动作代价定义为：

Zπ(x,v)=l(x)+∑i=t+1∞γi−t $l(xi)-αH(π(\cdot∣xi))$ Z_\pi(x, v) = l(x) + \sum_{i=t+1}^{\infty} \gamma^{i-t} $l(x_i) - \\alpha H(\\pi(\\cdot\|x_i))$ Zπ(x,v)=l(x)+i=t+1∑∞γi−t $l(xi)-αH(π(\cdot∣xi))$

其中 H(π(⋅∣x))=Ev∼π(⋅∣x) $-logπ(v∣x)$ H(\pi(\cdot|x)) = \mathbb{E}_{v\sim\pi(\cdot|x)} $-\\log\\pi(v\|x)$ H(π(⋅∣x))=Ev∼π(⋅∣x) $-logπ(v∣x)$ 为策略熵，α\alphaα 为平衡代价与熵相对重要性的温度参数。

演员-评论家架构：

评论家网络 Zθ(⋅∣x,v)Z_\theta(\cdot|x, v)Zθ(⋅∣x,v)：建模分布代价函数，输出高斯分布的均值和标准差
演员网络 πϕ(⋅∣x)\pi_\phi(\cdot|x)πϕ(⋅∣x)：建模随机策略，输出高斯动作分布的均值和标准差

DSAC交替执行策略评估和策略改进：

策略评估：通过最小化目标代价分布与当前分布之间的KL散度更新评论家网络
策略改进：通过最小化目标函数更新策略网络

习得的随机策略不直接应用于在线控制，而是作为MPPI的样本生成器。

2.3 在线MPPI控制模块

2.3.1 控制序列代价

给定控制输入序列 ν:={vt,vt+1,...,vt+N−1}\nu := \{v_t, v_{t+1}, \ldots, v_{t+N-1}\}ν:={vt,vt+1,...,vt+N−1}，对于任意初始状态 xtx_txt，可生成唯一状态轨迹 Xν:={xt,xt+1,...,xt+N}X_\nu := \{x_t, x_{t+1}, \ldots, x_{t+N}\}Xν:={xt,xt+1,...,xt+N}。控制序列的代价定义为：

C(ν;xt):=∑i=tt+N−1l(xi)+T(xt+N)C(\nu; x_t) := \sum_{i=t}^{t+N-1} l(x_i) + T(x_{t+N})C(ν;xt):=i=t∑t+N−1l(xi)+T(xt+N)

有限时域代价-to-go为：

VU,ΣFH(xt)=EPU,Σ $C(ν;xt)$ V^{\text{FH}}{U,\Sigma}(x_t) = \mathbb{E}{\mathcal{P}_{U,\Sigma}} $C(\\nu; x_t)$ VU,ΣFH(xt)=EPU,Σ $C(ν;xt)$

2.3.2 重要性采样与更新律

通过重要性采样技术，可以用任意控制分布的样本来估计最优控制解。似然比定义为：

ω(ν;U,Σ):=p(ν∣U∗,Σ∗)p(ν∣U,Σ)\omega(\nu; U, \Sigma) := \frac{p(\nu|U^*, \Sigma^*)}{p(\nu|U, \Sigma)}ω(ν;U,Σ):=p(ν∣U,Σ)p(ν∣U∗,Σ∗)

可推导得：

ω(ν;U,Σ)=1ηexp⁡{−1λ $C(ν;xt)+D(ν;U,Σ)$ }\omega(\nu; U, \Sigma) = \frac{1}{\eta} \exp\left\{-\frac{1}{\lambda} $C(\\nu; x_t) + D(\\nu; U, \\Sigma)$ \right\}ω(ν;U,Σ)=η1exp{−λ1 $C(ν;xt)+D(ν;U,Σ)$ }

其中 λ∈R+\lambda \in \mathbb{R}_+λ∈R+ 为逆温度参数。

由此可导出迭代更新律：

u∗=EPU,Σ $ω(ν;U,Σ)vi$ u^* = \mathbb{E}{\mathcal{P}{U,\Sigma}} $\\omega(\\nu; U, \\Sigma) v_i$ u∗=EPU,Σ $ω(ν;U,Σ)vi$

diag(σ∗)=EPU,Σ $ω(ν;U,Σ)(vi-ui)\circ(vi-ui)$ EPU,Σ $ω(ν;U,Σ)$ \text{diag}(\sigma^*) = \sqrt{\frac{\mathbb{E}{\mathcal{P}{U,\Sigma}} $\\omega(\\nu; U, \\Sigma)(v_i - u_i) \\circ (v_i - u_i)$ }{\mathbb{E}{\mathcal{P}{U,\Sigma}} $\\omega(\\nu; U, \\Sigma)$ }}diag(σ∗)=EPU,Σ $ω(ν;U,Σ)$ EPU,Σ $ω(ν;U,Σ)(vi-ui)\circ(vi-ui)$

2.4 RL驱动的MPPI框架

RL-driven MPPI的核心框架包含两大模块：

离线RL训练模块 ：学习对角高斯策略 π(v∣x):X→P(v)\pi(v|x) : \mathcal{X} \rightarrow \mathcal{P}(v)π(v∣x):X→P(v)，将状态映射为控制输入的概率分布
在线MPPI控制模块：基于习得RL策略生成引导样本，加速MPPI收敛

三、主要创新点与学术贡献

3.1 创新点一：RL初始化策略

传统MPPI使用随机初始化，可能导致初始值远离最优点，从而需要增加迭代次数。

RL初始化方法 ：将DSAC习得的策略 πϕ∗(⋅∣x)\pi^*_\phi(\cdot|x)πϕ∗(⋅∣x) 用于MPPI初始化：

U0=uϕ∗({xt:t+N−1})U^0 = u^*\phi(\{x{t:t+N-1}\})U0=uϕ∗({xt:t+N−1})

Σ0=σϕ∗({xt:t+N−1})2\Sigma^0 = \sigma^*\phi(\{x{t:t+N-1}\})^2Σ0=σϕ∗({xt:t+N−1})2

其中状态序列 {xt:t+N−1}\{x_{t:t+N-1}\}{xt:t+N−1} 可通过从 xtx_txt 开始反复应用策略均值 uϕ(x)u_\phi(x)uϕ(x) 获得。

优势：离线策略比随机采样更接近最优解，显著提高计算效率。

3.2 创新点二：混合采样策略（HSS）

传统MPPI仅从当前控制分布 PUk,Σk\mathcal{P}_{U^k, \Sigma^k}PUk,Σk 采样，当从当前分布获取低成本解困难时，需要大量样本或迭代才能接近近乎最优策略。

混合采样策略 ：候选解不仅从当前分布采样，还从离线RL策略 πϕ∗(⋅∣x)\pi^*_\phi(\cdot|x)πϕ∗(⋅∣x) 采样。RL策略产生的样本称为引导样本。

实现方式：

在每个在线MPPI迭代开始时，收集引导样本
根据代价-to-go对引导样本和当前分布样本排序
采用top-ZZZ策略选择样本生成下一次迭代

这种设计将RL策略视为MPPI解的下界，有效提升全局收敛性。

3.3 创新点三：均值与方差同步更新

现有MPPI方法仅更新均值控制输入，方差保持固定。本文同步更新均值和方差：

diag(σik+1)=∑z=1Zω~(ν(z);Uk,Σk)(vi(z)−uik)∘(vi(z)−uik)∑z=1Zω~(ν(z);Uk,Σk)\text{diag}(\sigma^{k+1}i) = \sqrt{\frac{\sum{z=1}^{Z} \tilde{\omega}(\nu^{(z)}; U^k, \Sigma^k)(v^{(z)}_i - u^k_i) \circ (v^{(z)}i - u^k_i)}{\sum{z=1}^{Z} \tilde{\omega}(\nu^{(z)}; U^k, \Sigma^k)}}diag(σik+1)=∑z=1Zω~(ν(z);Uk,Σk)∑z=1Zω~(ν(z);Uk,Σk)(vi(z)−uik)∘(vi(z)−uik)

设计原则：

根据状态自适应调整方差，平衡探索与利用
设置方差下界防止早熟收敛：σk=max⁡(σk,σmin⁡I)\sigma^k = \max(\sigma^k, \sigma_{\min} I)σk=max(σk,σminI)

3.4 创新点四：基于Q值的终端代价设计

采用DSAC习得的Q值网络作为MPPI终端代价项：

T(xt+N)=Qθ∗(xt+N,ut+N)T(x_{t+N}) = Q^*\theta(x{t+N}, u_{t+N})T(xt+N)=Qθ∗(xt+N,ut+N)

其中 ut+N=Evt+N∼πϕ∗(⋅∣xt+N) $vt+N$ u_{t+N} = \mathbb{E}{v{t+N}\sim\pi^*\phi(\cdot|x{t+N})} $v_{t+N}$ ut+N=Evt+N∼πϕ∗(⋅∣xt+N) $vt+N$ 。

理论依据 ：根据Q函数定义，Qθ∗(xt+N,ut+N)Q^*\theta(x{t+N}, u_{t+N})Qθ∗(xt+N,ut+N) 描述了从 xt+Nx_{t+N}xt+N 出发的折扣无限时域代价。

优势：

使 C(ν;xt)C(\nu; x_t)C(ν;xt) 更好地逼近无限时域代价-to-go
可用较短预测时域近似无限时域代价，提升实时性能
减轻长时域 rollout 的计算负担

四、实验设计与结果分析

4.1 实验任务

在6自由度无人机（UAV）航点接近任务上验证方法有效性。

任务目标：驱动无人机以最短路径着陆到目标区域，同时实现最短飞行时间。

环境设置：

工作空间：10m边长立方体
目标区域：球形区域，半径 α\alphaα
初始位置在工作空间内随机给定

系统状态 ：位置 pnp_npn、速度 vnbv_n^bvnb、角速度 wnbw_n^bwnb、姿态四元数 qb,nq_{b,n}qb,n

控制输入：推力向量和力矩向量

代价函数：

r(xt)={200,if p∈Xend−ap∥p−ptarget∥2−av∥v∥2−aw∥w∥2−aqeq,otherwiser(x_t) = \begin{cases} 200, & \text{if } p \in \mathcal{X}{\text{end}} \\ -a_p \|p - p{\text{target}}\|^2 - a_v \|v\|^2 - a_w \|w\|^2 - a_q e_q, & \text{otherwise} \end{cases}r(xt)={200,−ap∥p−ptarget∥2−av∥v∥2−aw∥w∥2−aqeq,if p∈Xendotherwise

其中各权重项分别惩罚位置偏差、速度、角速度及姿态误差。

4.2 对比方法

DSAC：纯离线强化学习方法
MPPI：传统模型预测路径积分控制
CEM-MPC：基于交叉熵的MPC方法
RL-driven MPPI：本文提出方法

4.3 实验结果

4.3.1 性能对比

当采样数量 Nrollouts=250N_{\text{rollouts}} = 250Nrollouts=250 时：

方法	平均回报	成功率
RL-driven MPPI	最高	最高
DSAC	次高	次高
MPPI	较低	较低
CEM-MPC	最低	最低

关键发现：

当 Nrollouts≤50N_{\text{rollouts}} \leq 50Nrollouts≤50 时，DSAC优于MPPI和RL-driven MPPI
随着样本量增加，RL-driven MPPI优势愈发显著
RL-driven MPPI以更少样本达到相同平均回报

4.3.2 收敛速度

RL-driven MPPI：仅需1次迭代即可达到最优性能
传统MPPI：至少需要5次迭代

4.3.3 计算效率

RL-driven MPPI显著降低计算时间，原因包括：

更短迭代步数
更少rollout需求
较短预测时域

4.4 消融实验

4.4.1 RL初始化的有效性

移除RL初始化后性能显著下降，证实了该策略的有效性。

4.4.2 混合采样策略（HSS）的有效性

HSS使算法能快速收敛到可行解
当样本量足够大时，HSS优势减小

4.4.3 方差更新的有效性

低样本量时，自适应方差效果显著
高样本量（Nrollouts≥1000N_{\text{rollouts}} \geq 1000Nrollouts≥1000）时，固定方差与自适应方差性能接近

4.4.4 Q值终端代价的有效性

无Q值时，策略仅能在有限预测时域内达到局部最优
Q值使算法能用短预测时域近似无限时域代价
长预测时域增加计算负担并放大建模误差

五、算法流程

算法1：RL-driven MPPI（RLMPPI）

离线RL训练阶段：

复制代码

1: 初始化价值网络和策略网络参数 θ, φ
2: 重复：
3:   最小化 J_Z(θ) 更新评论家
4:   最小化 J_π(φ) 更新演员
5: 直到收敛
6: 返回 Z_θ*(·|x,v) 和 π_φ*(·|x)

在线MPPI控制阶段：

复制代码

7: 给定初始状态 x_real，t = 0
8: 给定控制过程终端状态集 X_end
9: 当 x_real ∉ X_end 时：
10:   设 x_t = x_real
11:   通过应用 u_φ*(x) 从 x_t 获取 x_{t+1:t+N-1}
12:   用以下初始化 (U^0, Σ^0)：
       U^0 = u_φ*({x_{t:t+N-1}})
       Σ^0 = σ_φ*({x_{t:t+N-1})}^2
13:   用 π_φ*(·|x_t) 采样 N_RL 个引导rollouts
14:   将 N_RL 个引导rollouts放入集合 D_π
15:   对 k = 0 到 K-1：
16:     用 (U^k, Σ^k) 采样 N_MPPI 个rollouts
17:     将这些rollouts放入集合 D_k
18:     计算 D_π 上代价 (11)
19:     按代价选择 top-Z 个控制序列
20:     用 (18) 更新 (U^{k+1}, Σ^{k+1})
21:   结束循环
22:   获取 (U^K, Σ^K)
23:   应用 u^K_t 作为控制输入，获得 x_real
24:   t = t + 1
25: 结束循环

六、总结与展望

6.1 研究总结

本文提出RL-driven MPPI方法，通过离线-在线策略学习框架有效结合强化学习与模型预测路径积分控制的各自优势：

特性	传统MPPI	纯RL	RL-driven MPPI
任意状态保证最优性	✓	✗	✓
样本效率	低	高	高
计算实时性	差	好	好
最终性能	一般	一般	优

核心贡献：

RL初始化：利用离线策略提供高质量初始解
混合采样策略：结合当前分布与引导样本提升全局收敛性
自适应方差更新：根据状态调整探索-利用平衡
Q值终端代价：短预测时域近似无限时域代价

6.2 未来展望

将RL-driven MPPI扩展到带不等式约束的一般最优控制问题
随着GPU计算能力提升，基于采样的优化框架有望应用于实际无人机控制

参考文献

见原论文参考文献列表 $1$ - $35$ ，主要涵盖：

最优控制与强化学习基础理论
MPPI及其扩展方法
分布强化学习算法（DSAC）
无人机动力学与控制