文章目录
-
- 内容概述
- 高效采样的多目标强化学习
- [GPI 优先级 Dyna(GPI\-PD)](#GPI 优先级 Dyna(GPI-PD))
- 实验
- 结论
- 补充
内容概述
参考文章:Sample-Efficient Multi-Objective Learning via Generalized Policy Improvement Prioritization
多目标强化学习(MORL)算法用于解决序贯决策问题,核心是处理智能体拥有的不同且通常相互冲突的偏好对应的奖励函数,其输出为一组策略(每个策略针对特定智能体偏好优化),可用于解决新的偏好问题。
在很多MORL问题中给,agent的总评价标准(效用函数)被设定为各个目标奖励的线性组合 ,它会在多个目标之前做权衡。 如果将所有可能策略的得分画在一个多维空间里,哪些最优的策略会形成一个被称为"凸覆盖集"的集合外壳。 ----- 只要我们找到顶点对应的有限个策略,无论给出一个多奇特的新偏好比例,针对这个新偏好的最优解一定在这个有限的策略集合中。
更多内容可以参考这篇文章:【NeurIPS 2019】一种多目标强化学习和策略自适应的通用算法 ,在这里详细解释了CSS图覆盖集。
本文作者提出一种基于广义策略改进(GPI)、经原则性与形式化推导的新型优先级算法,核心优势的是:
GPI 不是简单的将新偏好的权重乘以已有策略在各个目标上的得分然后求和(选择一个整体最好的策略),而是在系统运行的每一个具体"状态-动作"下都计算现有策略的加权得分,然后每次都贪婪的选择给出最高得分的动作。
能让智能体在每个时刻识别最有前景的偏好/目标进行训练 (使用GPI后的得分相比旧策略有巨大飞跃,说明覆盖集覆盖的区域不全面,重点训练落差大的地方);可快速解决MORL问题;学习特定偏好策略时能识别最相关过往经验 (神经网络是靠误差来更新参数的,误差【距离】越大,蕴含的有效信息就越大。 ---- 论文中所谓"最相关的经验",指的并不是"表现最好的经验",而是"当前策略误解最深、一旦纠正就能带来最大进步的经验"。),属于全新Dyna式MORL方法。该算法可在有限步数内收敛到最优解,受限情况下可得到ε-最优解,且能单调提升学习过程中部分解的质量,还定义了部分解与最优解间最大效用损失的边界条件,实验验证其性能优于当前最先进MORL算法。
标准RL采样效率低下,MORL的采样效率问题更突出,因其需学习多组对应不同偏好权衡关系的策略。
已知当MORL效用函数为目标线性组合时,最优解是一组凸覆盖集(CCS)(有CCS可直接识别任意偏好下的最优策略),但现有学习CCS的MORL算法采样效率低,原因在于依赖启发式方法选择训练偏好 、仅能改进已识别策略。
针对上述问题,本文提出解决方案:
- 一是用基于GPI的优先级技术(基于性能提升下界选择训练偏好)解决偏好选择问题;
- 二是提出增量式算法,在中间次优策略下也能单调提升CCS质量,保障采样效率且有明确效用损失上界。
此外,采用基于模型的RL方法作为补充,通过学习不同偏好下的策略模型减少环境交互,并提出首个可处理连续状态空间的Dyna式MORL算法,利用GPI优先级技术识别最相关模拟经验,加速特定偏好下最优策略的学习。
高效采样的多目标强化学习
提出一种基于 GPI 的方法,在每个时刻识别出最有前景的偏好 / 权重向量 w ∈ W w \in \mathcal{W} w∈W进行训练,同时构建一个 CCS。
- 引入一种原则性的优先级技术,用于选择训练偏好(基于优先级权重向量的 GPI);
- 提出一种用于优化特定偏好时的经验优先级技术(基于 GPI 的经验优先级)。
基于优先级权重向量的 GPI
本文作者提出一种迭代构建策略集合 Π \Pi Π的算法,其价值向量近似 CCS。每次迭代中,算法根据 GPI 可实现的形式化保证改进,选择一个权重向量 w ∈ W w \in \mathcal{W} w∈W,学习一个针对 w w w优化的新策略 π w \pi_w πw。
定义 3.1(角权重)
令 V = { v π i } i = 1 n \mathcal{V} = \{\mathbf{v}^{\pi_i}\}_{i=1}^n V={vπi}i=1n为 n n n个策略的多目标价值向量集合,角权重是以下定义的多面体 P P P的顶点所包含的权重:
P = { x ∈ R d + 1 ∣ V + x ≤ 0 , ∑ i x i = 1 , w i ≥ 0 , ∀ i } , (6) P = \left\{ x \in \mathbb{R}^{d+1} \,\bigg|\, \mathbf{V}^+ x \leq 0, \sum_i x_i = 1, w_i \geq 0, \forall i \right\}, \tag{6} P={x∈Rd+1 V+x≤0,i∑xi=1,wi≥0,∀i},(6)
其中 V + \mathbf{V}^+ V+是一个矩阵,其行存储 V \mathcal{V} V的元素,并添加一列全为 - 1 的向量;每个向量 x = ( w 1 , . . . , w d , v w ) x = (w_1, ..., w_d, v_w) x=(w1,...,wd,vw)由权重向量及其标量化值组成。
向量 x = ( w 1 , . . . , w d , v w ) x = (w_1, ..., w_d, v_w) x=(w1,...,wd,vw) : 前面的 w 1 w_1 w1 到 w d w_d wd 是权重向量(代表你在地面围栏里的具体位置,也就是偏好比例)。最后的 v w v_w vw 是标量化值(代表这个位置对应在空中的"高度"或者说"总得分")。所以, x x x 就是多维空间里的一个包含位置和高度的完整坐标点。
∑ i x i = 1 \sum_i x_i = 1 ∑ixi=1(这里指权重的总和)和 w i ≥ 0 w_i \geq 0 wi≥0 。(围栏边界)。它强制要求所有的偏好比例必须是正数,且加起来等于 100%。这保证了坐标点不会跑偏到无限远的地方去。
不等式: V + x ≤ 0 \mathbf{V}^+ x \leq 0 V+x≤0 。论文说 V + \mathbf{V}^+ V+ 是把策略的得分向量加上一个列向量 -1 组成的 。如果我们把这行矩阵乘法展开,针对某一个特定的策略,它的计算过程是这样的:
(策略在各目标的得分 × \times × 偏好权重)+( − 1 × -1 \times −1× 屋顶高度 v w v_w vw) ≤ 0 \leq 0 ≤0移项之后就变成了:策略的实际得分 ≤ \leq ≤ 屋顶高度 v w v_w vw 这说明 ,多面体 P P P 框定的其实是屋顶上方的所有空间.它要求变量 v w v_w vw(屋顶高度)必须大于或等于你手里任何一个已知策略的得分。

直观来说,角权重是那些在最大化 max π ∈ Π v w π \max_{\pi \in \Pi} v_w^\pi maxπ∈Πvwπ时会发生变化的权重向量,这些权重对应两个或多个策略在上述最大化中具有相同值的情况。极端权重(除一个元素为 1 外其余全为 0)是角权重的特例。
注意,多面体 P P P的顶点数是有限的,因此 V \mathcal{V} V的角权重集合也是有限的。角权重的重要性由以下定理说明:
定理 3.2(Rooijers 等人 [37] 的定理 7)
令 Π = { π i } i = 1 n \Pi = \{\pi_i\}{i=1}^n Π={πi}i=1n为一组策略,对应的价值向量为 V = { v π i } i = 1 n \mathcal{V} = \{\mathbf{v}^{\pi_i}\}{i=1}^n V={vπi}i=1n。定义 Δ ( w , Π ) = v w ∗ − max π ∈ Π v w π \Delta(w, \Pi) = v_w^* - \max_{\pi \in \Pi} v_w^\pi Δ(w,Π)=vw∗−maxπ∈Πvwπ为权重向量 w w w下的效用损失,即最优策略的效用 与使用集合 Π \Pi Π中策略得到的最大效用 之间的差值。则权重向量 w ∈ arg max w ∈ W Δ ( w , Π ) w \in \arg\max_{w \in \mathcal{W}} \Delta(w, \Pi) w∈argmaxw∈WΔ(w,Π)一定是 V \mathcal{V} V的角权重。
根据该定理,在构建 CCS 时,只需考虑有限的角权重集合 W corner W_{\text{corner}} Wcorner,而非整个权重单纯形 W \mathcal{W} W。这也为我们提供了选择训练权重向量的方法:优先选择能通过 GPI 实现最大改进的角权重。本文作者提出根据 GPI 策略(式 (4))的标量化值的改进幅度来对权重向量进行优先级排序,选择当前价值向量集合 V \mathcal{V} V的角权重中满足下式的权重:
arg max w ∈ W corner ( v w GPI − max π ∈ Π v w π ) . (7) \arg\max_{w \in W_{\text{corner}}} \left( v_w^{\text{GPI}} - \max_{\pi \in \Pi} v_w^\pi \right). \tag{7} argw∈Wcornermax(vwGPI−π∈Πmaxvwπ).(7)
直观来说,式 (7) 识别出那些通过 GPI 能实现最大可能改进的角权重。
因为在现实中,我们其实并不知道真正的完美最优解 v w ∗ v_w^* vw∗ 到底有多高。所以,公式 (7)用算得出来的 GPI 天花板高度 ( v w GPI v_w^{\text{GPI}} vwGPI) 替换了它。外面的 arg max 就像一个雷达锁定器,直接挑出落差最大的那个尖角偏好 w w w,作为下一步训练的目标。
算法 1(GPI 线性支持,GPI-LS)正是基于上述思想构建的迭代算法,可在有限次迭代内构建 CCS。令NewPolicy\(w, Π\)为一个 RL 算法,用于搜索优化权重向量 w ∈ W w \in \mathcal{W} w∈W的策略,初始候选策略为 π w \pi_w πw,目标是最大化 max π ∈ Π v w π \max_{\pi \in \Pi} v_w^\pi maxπ∈Πvwπ。假设该算法在达到停止条件时返回done=True,此时将新策略加入 Π \Pi Π并移除被支配的策略(即价值向量不再是任何权重向量下最优的策略)。

首先分析NewPolicy\(w, Π\)能找到最优策略的理想场景,之后再放宽这一假设,证明算法在次优策略下仍能保持强理论保证。
定理 3.3
令NewPolicy\(w, Π\)为算法 1 中任意一个能为给定权重向量 w w w返回最优策略 π w ∗ \pi_w^* πw∗的算法。则算法 1 保证在有限次迭代内返回一个 CCS。
证明 :每次迭代中,角权重集合 W corner W_{\text{corner}} Wcorner是有限的(多面体 P P P的顶点数有限,式 (6))。一旦NewPolicy\(w, Π\)的终止条件满足(返回done=True),最优策略 π w ∗ \pi_w^* πw∗被添加到集合 M \mathcal{M} M中,不会被再次选择。这一过程会遍历所有可能的角权重,由于状态和动作空间有限,多面体 P P P的顶点数(即潜在角权重数量)是有限的,因此算法 1 最终会在有限次迭代内遍历所有角权重,此时 M \mathcal{M} M包含 CCS 的所有角权重,算法返回 Π \Pi Π和 V \mathcal{V} V,即 CCS。
当无法再分析更多角权重( W corner W_{\text{corner}} Wcorner为空)时,根据定理 3.2,无法再对任意权重向量 w ∈ W w \in \mathcal{W} w∈W进行改进,因此 V \mathcal{V} V(及其对应的策略集合 Π \Pi Π)构成一个 CCS。
现在放宽假设,假设NewPolicy\(w, Π\)收敛到局部最小值(即 ε- 最优策略),此时 GPI-LS 返回一个 ε-CCS。
由于神经网络的局限性,最后输出的可能是次优解
定义 3.4(ε- 凸覆盖集)
一组价值向量 V = { v π i } i = 1 n \mathcal{V} = \{\mathbf{v}^{\pi_i}\}{i=1}^n V={vπi}i=1n(对应策略集合 Π = { π i } i = 1 n \Pi = \{\pi_i\}{i=1}^n Π={πi}i=1n)被称为 ε-CCS,当且仅当对所有权重向量 w ∈ W w \in \mathcal{W} w∈W,对应的效用损失满足:
max w ∈ W Δ ( w , Π ) = max w ∈ W ( v w ∗ − max π ∈ Π v w π ) ≤ ϵ . \max_{w \in \mathcal{W}} \Delta(w, \Pi) = \max_{w \in \mathcal{W}} \left( v_w^* - \max_{\pi \in \Pi} v_w^\pi \right) \leq \epsilon. maxw∈WΔ(w,Π)=maxw∈W(vw∗−maxπ∈Πvwπ)≤ϵ.
直观来说,ε-CCS 是一个凸覆盖集,其最大效用损失不超过 ε;基于此,对于任意权重向量 w ∈ W w \in \mathcal{W} w∈W,都能识别出与最优策略价值差异不超过 ε 的策略。
ϵ \epsilon ϵ 代表的是一种容错率。只要帐篷表面到天花板的最深落差 Δ \Delta Δ 不超过 ϵ \epsilon ϵ,我们就认为这顶帐篷是合格的。 max w ∈ W \max_{w \in \mathcal{W}} maxw∈W 表示如果连最凹陷的地方距离完美天花板的差距都在 ϵ \epsilon ϵ 之内,那么对于任何其他的偏好 w w w,我们的差距只会更小,绝不会更大。
定理 3.5
令NewPolicy\(w, Π\)为算法 1 中一个能产生 ε- 最优策略 π w \pi_w πw的算法,当终止条件满足(返回done=True)时, v w ∗ − v w π w ≤ ϵ v_w^* - v_w^{\pi_w} \leq \epsilon vw∗−vwπw≤ϵ。则算法 1 保证返回一个 ε-CCS。
证明 :令 Π i \Pi_i Πi为 GPI-LS 在第 i i i次迭代计算的策略集合, V i \mathcal{V}i Vi为对应的价值向量集合。令 Δ i = max w ∈ W Δ ( w , Π i ) \Delta_i = \max{w \in \mathcal{W}} \Delta(w, \Pi_i) Δi=maxw∈WΔ(w,Πi)为第 i i i次迭代时部分 CCS 的最大效用损失。若 Δ i ≤ ϵ \Delta_i \leq \epsilon Δi≤ϵ,则算法 1 在第 i i i次迭代计算的价值向量 V i \mathcal{V}_i Vi就是一个 ε-CCS。否则,根据定理 3.2,GPI-LS 会选择一个角权重 w ′ w' w′,使得 Δ ( w ′ , Π i ) = Δ i \Delta(w', \Pi_i) = \Delta_i Δ(w′,Πi)=Δi。
由于NewPolicy返回的是 ε- 最优策略( ϵ < Δ i \epsilon < \Delta_i ϵ<Δi),在某次迭代 j > i j>i j>i中,GPI-LS 会选择 w ′ w' w′并计算其最优策略 π w ′ \pi_{w'} πw′,此时 Δ ( w ′ , Π j ) ≤ ϵ \Delta(w', \Pi_j) \leq \epsilon Δ(w′,Πj)≤ϵ,因此 Δ j < Δ i \Delta_j < \Delta_i Δj<Δi,部分 CCS 的最大效用损失被严格减小。因此,在有限次迭代 k k k后,必然能保证 Δ i + k ≤ ϵ \Delta_{i+k} \leq \epsilon Δi+k≤ϵ,此时算法返回一个 ε-CCS。
由于可能的"尖角"数量是有限的,这种"补坑"的过程最终一定会让所有的坑都变得足够浅。
最后,本文作者引入一个形式化的边界条件,刻画算法在任意迭代中,由部分解产生的最大效用损失(相对于最优解)。
定理 3.6
该定理实际上给出了一个误差上限,通过增大覆盖范围来限制损失。
令 V = { v π i } i = 1 n \mathcal{V} = \{\mathbf{v}^{\pi_i}\}{i=1}^n V={vπi}i=1n为一组价值向量,对应策略集合 Π = { π i } i = 1 n \Pi = \{\pi_i\}{i=1}^n Π={πi}i=1n,优化权重向量为 W = { w i } i = 1 n \mathcal{W} = \{w_i\}{i=1}^n W={wi}i=1n。令 q w ∗ ( s , a ) q_w^*(s,a) qw∗(s,a)为权重向量 w w w下的最优动作价值函数, q w GPI ( s , a ) q_w^{\text{GPI}}(s,a) qwGPI(s,a)为基于 Π \Pi Π的 GPI 策略的动作价值函数。令 r max = max s , a , s ′ ∥ r ( s , a , s ′ ) ∥ r{\text{max}} = \max_{s,a,s'} \|\mathbf{r}(s,a,s')\| rmax=maxs,a,s′∥r(s,a,s′)∥,则对任意 w ∈ W w \in \mathcal{W} w∈W和任意 i ∈ { 1 , . . . , n } i \in \{1,...,n\} i∈{1,...,n},有:
∣ q w ∗ ( s , a ) − q w GPI ( s , a ) ∣ ≤ 2 1 − γ ( r max min i ∥ w − w i ∥ + δ ) . (8) \left| q_w^*(s,a) - q_w^{\text{GPI}}(s,a) \right| \leq \frac{2}{1-\gamma} \left( r_{\text{max}} \min_i \|w - w_i\| + \delta \right). \tag{8} qw∗(s,a)−qwGPI(s,a) ≤1−γ2(rmaximin∥w−wi∥+δ).(8)
该定理保证,随着权重向量集合 W \mathcal{W} W的覆盖范围增大(逼近单纯形),算法每次迭代的最大效用损失会被严格限制。
基于 GPI 的经验优先级
前面的内容一直在讲挑哪个偏好值得被优先训练,现在假设已经锁定了一个特定的偏好,正在用基于模型的RL为它训练专属策略。
提升采样效率的另一种互补方法是使用基于模型的 RL 算法学习不同偏好下的策略。本文提出一种基于 Dyna 式 MORL 算法的新型经验优先级技术,核心问题是:应生成哪些人工模型经验来加速学习?
首先引入一个定理,为原则性经验优先级方案提供理论基础:
定理 3.7
令 Π \Pi Π为任意一组策略, π w \pi_w πw为针对权重向量 w w w优化的确定性策略。则 q w GPI ( s , a ) = q w π w ( s , a ) q_w^{\text{GPI}}(s,a) = q_w^{\pi_w}(s,a) qwGPI(s,a)=qwπw(s,a)对所有状态 - 动作对 ( s , a ) ∈ S × A (s,a) \in \mathcal{S} \times \mathcal{A} (s,a)∈S×A成立,当且仅当 q w ( s , a ) = q w π w ( s , a ) q_w(s,a) = q_w^{\pi_w}(s,a) qw(s,a)=qwπw(s,a)。换句话说,若 π w \pi_w πw是集合 Π \Pi Π的最优策略,则对优化 w w w的 GPI 策略的 q q q函数,不会超过 π w \pi_w πw的 q q q函数。
根据该定理,要快速学习最优策略,我们希望 q w GPI ( s , a ) q_w^{\text{GPI}}(s,a) qwGPI(s,a)尽可能接近 q w π w ( s , a ) q_w^{\pi_w}(s,a) qwπw(s,a)。因此,状态 - 动作对上的价值差 q w GPI ( s , a ) − q w π w ( s , a ) q_w^{\text{GPI}}(s,a) - q_w^{\pi_w}(s,a) qwGPI(s,a)−qwπw(s,a)越大,更新这些状态 - 动作对就越能快速逼近 q w π w ( s , a ) q_w^{\pi_w}(s,a) qwπw(s,a)和 q w GPI ( s , a ) q_w^{\text{GPI}}(s,a) qwGPI(s,a)(以最大范数形式)。直观来说,这些状态 - 动作对是有前景的候选经验,可从模型中采样并用于改进策略 π w \pi_w πw。当该差距在所有状态 - 动作对上都为零时,我们就确定了基于 w w w的最优策略。
与其随机抽取经验来更新参数,不如直接测算前距离天花板的垂直落差。落差越大,说明这个状态下的认知塌陷越严重,我们就赋予它越高的优先级。
基于这些观察,我们提出在学习 π w \pi_w πw的过程中,根据使用 GPI 策略产生的价值改进幅度来对经验进行优先级排序。即,对于给定的权重向量 w ∈ W w \in \mathcal{W} w∈W和状态 - 动作对 ( s , a ) (s,a) (s,a),分配对应的优先级:
P w ( s , a ) ∝ q w GPI ( s , a ) − q w π w ( s , a ) . (9) P_w(s,a) \propto q_w^{\text{GPI}}(s,a) - q_w^{\pi_w}(s,a). \tag{9} Pw(s,a)∝qwGPI(s,a)−qwπw(s,a).(9)
注意,除非提前使用策略评估算法计算,否则无法直接获取 GPI 策略的动作价值函数 q w GPI ( s , a ) q_w^{\text{GPI}}(s,a) qwGPI(s,a)。因此,可以通过执行一步 GPI 策略来高效计算其值:在状态 s s s中执行动作 A t A_t At(由 GPI 策略给出),然后在第一步之后继续使用集合 Π \Pi Π中的同一策略 π \pi π。
可以证明,当 Π \Pi Π中只有一个策略时,式 (10) 就退化为常用的优先经验回放方案(式 (5))。因此,式 (10) 可以看作是广义的基于 TD 误差的优先级方案。
公式 (10) 取绝对值,其实就是将传统强化学习中著名的优先经验回放 (PER) 升级到了多目标版本。
此处补充式 (10) 完整内容: P w ( s , a ) ∝ ∣ q w GPI ( s , a ) − q w π w ( s , a ) ∣ . (10) P_w(s,a) \propto \left| q_w^{\text{GPI}}(s,a) - q_w^{\pi_w}(s,a) \right|. \tag{10} Pw(s,a)∝ qwGPI(s,a)−qwπw(s,a) .(10),该方式与式 (9) 共同构成经验优先级分配的完整方式,前者用于无绝对差值需求的场景,后者用于需规避负向差值影响、仅关注差值大小的场景,可根据实际学习需求灵活选用。
GPI 优先级 Dyna(GPI-PD)
现在介绍一种新型基于模型的 MORL 算法 ------GPI-Prioritized Dyna(GPI-PD)。
该算法通过同时使用 GPI-LS 选择权重向量、和 GPI 经验优先级方案来快速构建 CCS,显著提升采样效率。GPI-PD 学习一个近似多目标动态模型 p ϕ p_\phi pϕ,该模型预测给定状态 - 动作对的下一个状态和奖励向量,用于生成模型模拟的经验,以更新多目标动作价值函数。其伪代码如算法 2 所示。

用一个统一的神经网络 Q θ Q_\theta Qθ 替代了所有的策略模型。不仅接收当前的环境状态 s s s 和动作 a a a,还直接把偏好权重 w w w 作为输入参数。
GPI-PD 可以处理高维连续状态和动作空间,它通过一个以状态和权重向量为条件的单神经网络 Q θ Q_\theta Qθ来建模动作价值函数,定义为 Q θ ( s , a , w ) ≈ q π w ( s , a ) Q_\theta(s,a,w) \approx \mathbf{q}^{\pi_w}(s,a) Qθ(s,a,w)≈qπw(s,a),其中 θ \theta θ是神经网络参数。我们将 GPI 策略定义为:
π GPI ( s ; w ) ≜ arg max a ∈ A max w ′ ∈ M Q θ ( s , a , w ′ ) ⋅ w , (11) \pi^{\text{GPI}}(s; w) \triangleq \arg\max_{a \in \mathcal{A}} \max_{w' \in \mathcal{M}} Q_\theta(s, a, w') \cdot w, \tag{11} πGPI(s;w)≜arga∈Amaxw′∈MmaxQθ(s,a,w′)⋅w,(11)
其中 M \mathcal{M} M是 GPI-LS 在算法 1 的第 4-8 行中选择的角权重集合。注意,我们将 w w w的前 k k k个权重向量添加到 M \mathcal{M} M中,这意味着每个对应的权重向量都在对应的回合中进行优化,从而加速了函数近似设置下的学习。
集合 M \mathcal{M} M 里面存着我们过去重点训练过的所有"角权重(尖角偏好)"。每当遇到一个新状态 s s s,系统会把这些过往的经验( w ′ w' w′)当成一个个"虚拟专家",统统扔进神经网络 Q θ Q_\theta Qθ 里跑一遍,看看各位专家在这个状态下都推荐什么动作,以及能拿多少分。
外部的 arg max a \arg\max_{a} argmaxa 和乘法 ⋅ w \cdot w ⋅w系统拿着各位专家的预估得分向量,与当前真正的目标偏好 w w w 进行点乘(加权总分)。谁推荐的动作在当前老板的偏好 w w w 下得分最高,就采用谁的动作!
最后,网络参数 θ \theta θ通过最小化多目标 TD 误差来更新:
L ( θ ; w ) = E ( S , A , R , S ′ ) ∼ B [ ( R + γ Q θ ( S ′ , a ′ , w ) − Q θ ( S , A , w ) ) 2 ] , (12) \mathcal{L}(\theta; w) = \mathbb{E}{(S,A,R,S') \sim \mathcal{B}} \left[ \left( R + \gamma Q\theta(S', a', w) - Q_\theta(S, A, w) \right)^2 \right], \tag{12} L(θ;w)=E(S,A,R,S′)∼B[(R+γQθ(S′,a′,w)−Qθ(S,A,w))2],(12)
其中 a ′ = arg max a ∈ A Q θ ( S ′ , a , w ) ⋅ w a' = \arg\max_{a \in \mathcal{A}} Q_\theta(S', a, w) \cdot w a′=argmaxa∈AQθ(S′,a,w)⋅w, B − \mathcal{B}^- B−是目标网络,其参数 θ − \theta^- θ−会定期更新。在算法 2 的第 22 行中,我们对当前回合的权重向量 w t w_t wt和从 M \mathcal{M} M中采样的其他权重向量 w ′ ∼ M w' \sim \mathcal{M} w′∼M优化 L ( θ ; w ) \mathcal{L}(\theta; w) L(θ;w),以避免灾难性遗忘 [3]。
为了防止失忆,算法在第 22 行做了一个强制规定:在每次更新网络时,除了训练当前正在攻克的偏好 w t w_t wt,还要从过去的记忆库 M \mathcal{M} M 里随机抽查(采样)几个历史偏好 w ′ w' w′,把它们混在一起同时训练优化。
基于学习的 MOMDP 模型的 Dyna
在真实的机器人控制或高维连续环境中,让智能体每一次试错都在真实世界里发生,成本极其高昂(比如机器人可能会撞坏)。因此,作者引入了经典的 Dyna 架构,让智能体能够在脑海中"做梦"和"沙盘推演" 。
- 构建"概率专家委员会":
智能体没有只用一个普通的神经网络来预测未来,而是建立了一个包含 n n n 个神经网络的模型集合(Ensemble),这就像是聘请了一个"专家委员会"。
概率预测: 面对复杂的现实世界,各位专家不会给出死板的绝对答案,而是给出一个高斯分布(均值 μ \mu μ 和协方差 Σ \Sigma Σ)。也就是说,专家会告诉你:"下一步我们大概率会到状态 A 并拿到 10 个金币,但我也有 20% 的不确定性。"
p ϕ i ( S t + 1 , R t ∣ S t , A t ) = N ( μ ϕ i ( S t , A t ) , Σ ϕ i ( S t , A t ) ) . (13) p_{\phi_i}(S_{t+1}, R_t | S_t, A_t) = \mathcal{N}(\mu_{\phi_i}(S_t, A_t), \Sigma_{\phi_i}(S_t, A_t)). \tag{13} pϕi(St+1,Rt∣St,At)=N(μϕi(St,At),Σϕi(St,At)).(13)
这些专家是并行独立训练的,而且每个人看到的历史数据批次(Bootstrapped)都有细微差别。这样能保证团队里有各种不同的声音,避免所有人犯同一个认知错误。
L ( ϕ ) = E ( S t , A t , R t , S t + 1 ) ∼ B [ − log p ϕ ( S t + 1 , R t ∣ S t , A t ) ] . (14) \mathcal{L}(\phi) = \mathbb{E}{(S_t, A_t, R_t, S{t+1}) \sim \mathcal{B}} \left[ -\log p_\phi(S_{t+1}, R_t | S_t, A_t) \right]. \tag{14} L(ϕ)=E(St,At,Rt,St+1)∼B[−logpϕ(St+1,Rt∣St,At)].(14)
- 优先级与虚实结合
它使用了我们上一个模块讨论过的优先级公式 P w P_w Pw。哪里落差最大(最令它困惑),它就在脑海里疯狂模拟那个状态下的行动。
脑补的数据被存入虚拟记忆库 B model \mathcal{B}{\text{model}} Bmodel。在真正更新策略 Q θ Q\theta Qθ 时,算法会将虚拟记忆和真实世界的记忆( B \mathcal{B} B)按比例 β \beta β 混合。这样既保证了学习速度(虚拟数据获取成本为 0),又用真实数据稳住了基本盘。
- 不确定性评估
加权融合: 在决定采信哪种情况时,系统会看各位专家的历史准确率,给靠谱的专家更高的权重。
如果在这个"虚拟路口",所有专家给出的预测大相径庭(模型预测方差极高),系统就会立刻拉响警报:"脑补无效,直接去真实世界走一遭!" 它会强制智能体在现实中执行这个动作,用获取的真实鲜活数据来狠狠地纠正这些专家的认知偏差。通过这种方式,算法极大地榨干了已有数据的价值(样本高效),同时又避免了因为"模型幻觉"而把策略练废。
补充模型使用的完整方式:除上述并行训练、经验混合采样的方式外,GPI-PD 还采用模型集成融合策略,即对 P \mathcal{P} P中所有神经网络的输出进行加权平均(权重根据各模型的预测精度动态调整),以降低模型预测方差、提升模拟经验的可靠性;同时,引入模型不确定性评估机制,当某状态 - 动作对的模型预测方差超过预设阈值时,优先采样该状态 - 动作对进行真实环境交互,补充真实经验以修正模型偏差,进一步提升采样效率。
实验

选取3 种典型多目标强化学习基准环境,覆盖离散 / 连续状态、连续动作空间;采用期望效用 EU、最大效用损失 MUL作为核心评价指标,实验结果取多次随机运行均值与 95% 置信区间。对比算法包括:Envelope MOQ-Learning、SFOLS、适用于连续动作的 PG-MORL。
| 实验环境 | 空间类型 | 对比算法 | 核心结论 |
|---|---|---|---|
| 深海宝藏 | 离散状态动作 | Envelope、SFOLS | 基线方差大、易陷入次优解;GPI 快速收敛、效用损失趋近于 0 |
| 矿车 | 连续状态 | Envelope、SFOLS | GPI 算法采样效率与收敛性能全面优于基线 |
| MO-Hopper | 连续动作 | PG-MORL | 同等甚至更少交互下,GPI 期望效用更高、帕累托前沿更优更密集 |
- 深海宝藏(离散基准环境)
任务:潜艇在收集宝藏与时间消耗之间做目标权衡。
实验约束:每次迭代仅分配 4000 个学习步;GPI-LS 为无模型算法、均匀采样无 Dyna 规划,GPI-PD 引入 Dyna 规划与经验优先级。
核心结论:
- Envelope 算法权重随机采样,性能方差大、渐近效果差;
- SFOLS 易收敛到次优凸覆盖集 CCS,偏好分配存在缺陷;
- GPI-LS 可精准筛选高潜力偏好权重,快速将效用损失降至趋近于 0,理论收敛性与实验结果一致;结合 GPI-PD 后采样效率进一步提升。

- 矿车(连续状态环境)
任务:三维目标权衡,包含采集两类矿石、售卖矿石、最小化燃料消耗。
实验控制:所有对比算法采用相同网络结构与超参数,保证公平性;GPI-PD 同步实现权重与经验双重优先级排序。
核心结论:本文 GPI-LS、GPI-PD 均可收敛到最优解,效用损失趋近于 0;采样效率与收敛性能全面优于SFOLS、Envelope 算法。

- MO-Hopper 多目标单腿机器人(连续动作环境)
任务:双目标优化,平衡前进速度与跳跃高度;Envelope、SFOLS 无法适配连续动作,仅与进化算法 PG-MORL 对比。
实验设置:PG-MORL 设置 6 个智能体种群、PPO 并行训练;本文基于 TD3 改造算法以支持连续动作;因无最优 CCS,采用帕累托前沿评估性能。
核心结论:即便 PG-MORL 环境交互次数为本文算法的 10 倍,GPI 系列仍具备更高期望效用;所生成的帕累托前沿覆盖面更广、解更密集,可支配对比算法的绝大多数解。

结论
本文提出了两种能显著提升采样效率的原则性优先级方法,同时提出了首个可处理连续状态空间的基于模型的 MORL 算法。两种优先级方案均基于 GPI 的性质推导而来,最终形成了一种高效采样算法,并具备重要的理论保证:
-
证明了强收敛性保证:算法可在有限步数内收敛到最优解;若智能体受限仅能识别次优策略,也能收敛到有界 ε \varepsilon ε- 最优解;
-
证明了该方法是一种任意时间算法,可在整个学习过程中单调提升解的质量;
-
形式化定义了一个边界,刻画了我们的技术在任意迭代中计算的部分解所产生的最大效用损失。
实验结果表明,在离散与连续状态 / 动作空间的、特性各异的多目标问题中,我们的算法性能均优于当前最先进的 MORL 算法。未来工作中,我们计划将本文的算法贡献与其他类型的基于模型方法(如前驱 / 后向模型 [13]、价值等价模型 [20])结合,并将方法扩展到非线性效用函数的场景中。
补充
为什么不在每个状态下都去精确解算完整的 q w GPI q_w^{\text{GPI}} qwGPI ,"只看一步"的方式为什么依然能提供足够有效的优先级信号?
GPI 策略在未来的每一步,它都会评估当前的地形(状态 s s s),然后从所有的老策略库里,挑出一个当时当地最完美的动作来执行。如果要精确算出从当前状态开始、直到回合结束的完整 q w GPI q_w^{\text{GPI}} qwGPI,算法就必须站在当下,去模拟未来成千上万步中每一次可能发生的策略切换。
"只看一步",本质上是应用了强化学习中最著名的核心思想:时序差分(Temporal Difference, 简称 TD)误差。
假设你现在对当前策略 π w \pi_w πw 的预期是"继续往前走,总分大概能拿 100 分"(这就是 q w π w q_w^{\pi_w} qwπw)。但是,如果算法试探性地让你在眼前这第一步听从 GPI 的指挥拐个弯,然后接下来再按老计划走,发现总分变成了 120 分! 这多出来的 20 分落差(TD 误差),就是一个极其强烈的信号 🚨。它明确地告诉你:虽然我们不知道走到终点的绝对完美路线是什么,但眼前这个路口绝对大有文章!这块砖的优先级必须被提得非常高。最终,局部的捷径会被串联成一条全局的完美路线。