【强化学习】2 大规模并行强化学习中的耦合策略优化：受控多样性驱动的样本高效探索

大规模并行强化学习中的耦合策略优化：受控多样性驱动的样本高效探索

1. 引言

1.1 大规模并行强化学习的探索瓶颈

随着GPU加速物理仿真器（如Isaac Gym、Genesis）的成熟，在单台设备上同步运行数以万计的并行环境已成为现实。然而，单纯增加并行环境数量并不能线性提升学习效率。在基于策略梯度的同策略（On-Policy）方法中，所有环境共享单一策略网络，导致采集的轨迹高度同质化，探索空间被严重压缩。这种现象在具有高维动作空间的灵巧操作（Dexterous Manipulation）任务中尤为突出：策略极易陷入局部最优，无法发现更优的行为模式。

1.2 策略集成的探索潜力与风险

为突破单一策略的探索极限，策略集成（Policy Ensemble）方法应运而生。其核心思想是：在并行环境中部署多个异构策略，通过策略间的行为差异扩大状态-动作空间的覆盖范围。Split and Aggregate Policy Gradients（SAPG）是这一方向的代表性工作，其采用Leader-Follower架构，将Follower策略采集的离策略（Off-Policy）样本通过重要性采样（Importance Sampling, IS）聚合到Leader策略的更新中，实现了样本的零丢弃与探索的多样化。

然而，策略集成面临一个根本性的张力：过度的策略多样性虽然扩大了探索空间，却会导致Follower策略与Leader策略严重偏离，使得离策略样本的重要性权重剧烈波动，反而损害训练稳定性与样本效率。这一矛盾揭示了一个深层原理------探索的广度必须以策略间的耦合强度为代价进行权衡。

1.3 耦合策略优化的核心思想

本文系统阐述一种受控多样性框架------耦合策略优化（Coupled Policy Optimization, CPO）。该方法在Leader-Follower架构中引入双重调控机制：一方面，通过KL散度约束将Follower策略绑定在Leader策略的邻域内，抑制有害的过度偏离；另一方面，通过对抗判别器赋予Follower策略差异化的内在奖励，防止所有策略坍缩至同一模式。这种"收束中有发散、耦合中有独立"的设计，使得策略集成既能保持结构化的探索分布，又能维持稳定的离策略学习。
并行环境
环境分块
Leader块
Follower1
Follower2
FollowerN
样本聚合
耦合优化
策略输出

2. 马尔可夫决策过程与策略梯度基础

2.1 问题形式化

强化学习任务通常建模为马尔可夫决策过程（Markov Decision Process, MDP），由六元组 (S,A,P,r,γ,d)(\mathcal{S}, \mathcal{A}, P, r, \gamma, d)(S,A,P,r,γ,d) 定义。其中 S\mathcal{S}S 为状态空间，A\mathcal{A}A 为动作空间，P(st+1∣st,at)P(s_{t+1}|s_t, a_t)P(st+1∣st,at) 为状态转移概率密度，r(s,a)r(s, a)r(s,a) 为即时奖励函数，γ∈(0,1)\gamma \in (0,1)γ∈(0,1) 为折扣因子，d(s0)d(s_0)d(s0) 为初始状态分布。策略 π(a∣s)\pi(a|s)π(a∣s) 定义为给定状态下的动作条件概率分布，其优化目标是最大化期望累积回报：

J(π)=Eτ∼π[∑t=0Tγtr(st,at)]J(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^{T} \gamma^t r(s_t, a_t) \right]J(π)=Eτ∼π[t=0∑Tγtr(st,at)]

其中 τ=(s0,a0,s1,a1,... )\tau = (s_0, a_0, s_1, a_1, \dots)τ=(s0,a0,s1,a1,...) 表示一条完整轨迹，TTT 为任务时域。

2.2 近端策略优化算法

近端策略优化（Proximal Policy Optimization, PPO）是当前同策略方法的事实标准。其核心思想是在策略更新时限制新旧策略之间的偏离幅度，防止因步长过大导致的性能崩溃。PPO通过裁剪替代目标（Clipped Surrogate Objective）实现这一约束：

LPPO(θ)=−Es,a∼πθold[min⁡(r(θ)A(s,a), clip(r(θ),1−ϵ,1+ϵ)A(s,a))]L^{\text{PPO}}(\theta) = -\mathbb{E}{s,a \sim \pi{\theta_{\text{old}}}} \left[ \min \left( r(\theta) A(s,a), \; \text{clip}(r(\theta), 1-\epsilon, 1+\epsilon) A(s,a) \right) \right]LPPO(θ)=−Es,a∼πθold[min(r(θ)A(s,a),clip(r(θ),1−ϵ,1+ϵ)A(s,a))]

其中 r(θ)r(\theta)r(θ) 为重要性采样比率：

r(θ)=πθ(a∣s)πθold(a∣s)r(\theta) = \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{\text{old}}}(a|s)}r(θ)=πθold(a∣s)πθ(a∣s)

A(s,a)A(s,a)A(s,a) 为优势函数（Advantage Function），估计在状态 sss 下采取动作 aaa 相对于平均表现的优劣程度。ϵ\epsilonϵ 为裁剪超参数（通常取 0.10.10.1 或 0.20.20.2），当 r(θ)r(\theta)r(θ) 超出 [1−ϵ,1+ϵ][1-\epsilon, 1+\epsilon][1−ϵ,1+ϵ] 区间时，目标函数被截断，从而抑制过大的策略偏移。

从物理意义上看，PPO的裁剪机制相当于在策略空间中划定了一个"信任区域"（Trust Region）。只要新旧策略的概率比值保持在该区域内，梯度更新就被视为可靠；一旦越界，梯度贡献即被冻结，防止策略因贪婪优化而跳离性能高地。

2.3 重要性采样与离策略学习

当策略 πθ\pi_{\theta}πθ 需要利用由行为策略 πbeh\pi_{\text{beh}}πbeh 采集的样本进行更新时，必须引入重要性采样以修正分布偏移带来的偏差。IS比率定义为：

w=πθ(a∣s)πbeh(a∣s)w = \frac{\pi_{\theta}(a|s)}{\pi_{\text{beh}}(a|s)}w=πbeh(a∣s)πθ(a∣s)

通过IS加权，离策略样本的期望可校正为：

Es,a∼πbeh[w⋅f(s,a)]=Es,a∼πθ[f(s,a)]\mathbb{E}{s,a \sim \pi{\text{beh}}} \left[ w \cdot f(s,a) \right] = \mathbb{E}{s,a \sim \pi{\theta}} \left[ f(s,a) \right]Es,a∼πbeh[w⋅f(s,a)]=Es,a∼πθ[f(s,a)]

其中 f(s,a)f(s,a)f(s,a) 为任意关于状态-动作对的函数。IS的物理本质是一种概率质量重分配：将行为策略采集的高频样本按目标策略的偏好进行重新加权，使得离策略数据能够为目标策略的梯度估计提供无偏支持。然而，当行为策略与目标策略差异过大时，IS比率会出现极端值，导致估计方差爆炸，这一现象是策略集成方法必须正视的核心挑战。
目标策略
IS比率计算
行为策略
样本采集
加权梯度
策略更新

3. 策略集成与Leader-Follower架构

3.1 分块聚合策略梯度

SAPG将 NNN 个并行环境划分为 MMM 个独立块，每个块分配一个策略。其中 111 个Leader策略 πL\pi_LπL 与 M−1M-1M−1 个Follower策略 πFi\pi_{F_i}πFi 共享同一神经网络骨干，但通过网络输入端的身份编码向量 ϕ∈R1\phi \in \mathbb{R}^1ϕ∈R1 实现策略分化。所有策略同步执行环境交互，但数据流向存在结构性差异：

Leader块：Leader策略在其专属环境中执行同策略采样，数据直接用于Leader的PPO更新；
Follower块：每个Follower策略独立采集样本，并通过IS机制将样本贡献给Leader的离策略更新。

这种设计的精妙之处在于：Follower策略的探索行为被"借来"用于Leader的学习，而无需Follower本身收敛到最优。Leader作为知识汇聚点，通过吸收多源异构样本，获得了远超单一策略的数据覆盖。

3.2 重要性采样的样本聚合机制

在SAPG中，Leader策略的更新目标融合了同策略与离策略两部分样本：

LSAPG,L(θ,j)=−Es,a∼πL,θold[min⁡(rLon(θ)AL(s,a), clip(rLon(θ),1−ϵ,1+ϵ)AL(s,a))]L_{\text{SAPG},L}(\theta, j) = -\mathbb{E}{s,a \sim \pi{L,\theta_{\text{old}}}} \left[ \min \left( r_{L}^{\text{on}}(\theta) A^L(s,a), \; \text{clip}(r_{L}^{\text{on}}(\theta), 1-\epsilon, 1+\epsilon) A^L(s,a) \right) \right]LSAPG,L(θ,j)=−Es,a∼πL,θold[min(rLon(θ)AL(s,a),clip(rLon(θ),1−ϵ,1+ϵ)AL(s,a))]

−Es,a∼πFj,θold[min⁡(rLoff(θ)AL(s,a), clip(rLoff(θ),1−ϵ,1+ϵ)AL(s,a))]\quad - \mathbb{E}{s,a \sim \pi{F_j,\theta_{\text{old}}}} \left[ \min \left( r_{L}^{\text{off}}(\theta) A^L(s,a), \; \text{clip}(r_{L}^{\text{off}}(\theta), 1-\epsilon, 1+\epsilon) A^L(s,a) \right) \right]−Es,a∼πFj,θold[min(rLoff(θ)AL(s,a),clip(rLoff(θ),1−ϵ,1+ϵ)AL(s,a))]

其中 j∈{0,...,M−2}j \in \{0, \dots, M-2\}j∈{0,...,M−2} 为每轮训练随机采样的Follower索引。两类IS比率分别为：

rLon(θ)=πL,θ(a∣s)πL,θold(a∣s),rLoff(θ)=πL,θ(a∣s)πFj,θold(a∣s)r_{L}^{\text{on}}(\theta) = \frac{\pi_{L,\theta}(a|s)}{\pi_{L,\theta_{\text{old}}}(a|s)}, \quad r_{L}^{\text{off}}(\theta) = \frac{\pi_{L,\theta}(a|s)}{\pi_{F_j,\theta_{\text{old}}}(a|s)}rLon(θ)=πL,θold(a∣s)πL,θ(a∣s),rLoff(θ)=πFj,θold(a∣s)πL,θ(a∣s)

Follower策略则仅使用其自身的同策略样本进行标准PPO更新：

LSAPG,Fi(θ)=−Es,a∼πFi,θold[min⁡(rFi(θ)AFi(s,a), clip(rFi(θ),1−ϵ,1+ϵ)AFi(s,a))]L_{\text{SAPG},F_i}(\theta) = -\mathbb{E}{s,a \sim \pi{F_i,\theta_{\text{old}}}} \left[ \min \left( r_{F_i}(\theta) A^{F_i}(s,a), \; \text{clip}(r_{F_i}(\theta), 1-\epsilon, 1+\epsilon) A^{F_i}(s,a) \right) \right]LSAPG,Fi(θ)=−Es,a∼πFi,θold[min(rFi(θ)AFi(s,a),clip(rFi(θ),1−ϵ,1+ϵ)AFi(s,a))]

其中 rFi(θ)=πFi,θ(a∣s)πFi,θold(a∣s)r_{F_i}(\theta) = \frac{\pi_{F_i,\theta}(a|s)}{\pi_{F_i,\theta_{\text{old}}}(a|s)}rFi(θ)=πFi,θold(a∣s)πFi,θ(a∣s)。

此外，SAPG对所有策略施加熵正则化（Entropy Regularization），以鼓励动作分布的随机性，从而促进探索多样性。熵奖励的物理意义在于：防止策略过早坍缩为确定性策略，保留对低概率但高价值动作的试探能力。

3.3 无约束多样性的隐患

SAPG的熵正则化虽能提升探索广度，却缺乏对策略间距离的显式约束。当Follower策略在熵驱动下持续偏离Leader时，离策略IS比率 rLoff(θ)r_{L}^{\text{off}}(\theta)rLoff(θ) 会剧烈偏离 111，引发三重负面效应：

有效样本量衰减：极端IS比率使得少数样本占据过高权重，等效样本量急剧下降；
裁剪偏差放大：PPO裁剪机制在IS比率大幅偏离时引入严重偏差，破坏梯度估计的准确性；
训练稳定性崩溃：Follower的离轨样本对Leader的更新贡献微弱甚至有害，整体学习效率不升反降。

过度偏离
适度偏离
熵正则化
Follower探索
偏离程度
IS比率爆炸
有效探索
样本效率下降
训练不稳定
性能提升

4. 策略多样性的理论分析

4.1 有效样本量的衰减机理

在重要性采样框架下，有效样本量（Effective Sample Size, ESS）是衡量离策略数据实际贡献的核心指标。给定 NNN 个样本及其归一化IS权重 w~i=wi/∑j=1Nwj\tilde{w}i = w_i / \sum{j=1}^{N} w_jw~i=wi/∑j=1Nwj，ESS定义为：

ESS=1∑i=1Nw~i2ESS = \frac{1}{\sum_{i=1}^{N} \tilde{w}_i^2}ESS=∑i=1Nw~i21

ESS的物理意义极为直观：当所有样本权重均匀分布时（w~i=1/N\tilde{w}_i = 1/Nw~i=1/N），ESS达到最大值 NNN，意味着全部样本等效参与；当权重高度集中于少数样本时，ESS趋近于 111，表明实质上仅有极少数样本在驱动更新。

命题一 ：IS比率偏离 111 的期望绝对偏差与ESS呈反比关系。

当Leader策略与Follower策略之间的分布差异增大时，离策略IS比率的期望绝对偏差 Es,a∼πFold[∣1−πL(a∣s)πFold(a∣s)∣]\mathbb{E}{s,a \sim \pi{F_{\text{old}}}} \left[ \left| 1 - \frac{\pi_L(a|s)}{\pi_{F_{\text{old}}}(a|s)} \right| \right]Es,a∼πFold[ 1−πFold(a∣s)πL(a∣s) ] 随之上升。这一偏离直接导致IS权重的方差膨胀，ESS衰减。直观理解：来自严重偏离的Follower的样本，其IS权重要么趋近于零（被忽略），要么异常巨大（主导更新），二者均导致信息利用效率的急剧恶化。

4.2 PPO裁剪偏差的放大效应

PPO的裁剪操作在保护策略稳定性的同时，也引入了固有的梯度估计偏差。这一偏差与IS比率的偏离程度存在定量关联。

命题二 ：PPO裁剪算子诱导的梯度估计偏差的 L2L^2L2 范数，受一个包含IS比率偏离项的期望量的平方根上界约束。

具体而言，设裁剪后的替代目标为 Lclip(θ)L^{\text{clip}}(\theta)Lclip(θ)，未裁剪目标为 Lsur(θ)L^{\text{sur}}(\theta)Lsur(θ)，则梯度估计偏差可表示为：

∥∇θLclip(θ)−∇θLsur(θ)∥2≤Es,a[g(∣1−r(θ)∣)⋅A(s,a)2]\left\| \nabla_{\theta} L^{\text{clip}}(\theta) - \nabla_{\theta} L^{\text{sur}}(\theta) \right\|2 \leq \sqrt{\mathbb{E}{s,a} \left[ g\left( \left| 1 - r(\theta) \right| \right) \cdot A(s,a)^2 \right]} ∇θLclip(θ)−∇θLsur(θ) 2≤Es,a[g(∣1−r(θ)∣)⋅A(s,a)2]

其中 g(⋅)g(\cdot)g(⋅) 为关于IS偏离的单调递增函数。物理意义清晰：当IS比率远离 111 时，PPO的裁剪阈值被频繁触发，大量样本的梯度贡献被人为截断。这种截断不仅丢弃了有价值的信息，还使得剩余梯度的统计特性发生系统性偏移，最终表现为训练过程的震荡与发散。

4.3 KL散度的上界约束

上述分析揭示了IS比率偏离是损害样本效率与训练稳定性的根源。那么，如何控制这一偏离？KL散度提供了理论桥梁。

命题三 ：对于Leader利用Follower样本的离策略更新，IS比率偏离 111 的期望绝对值受Follower与Leader策略之间KL散度的上界约束。

Es,a∼πFold[∣1−πL(a∣s)πFold(a∣s)∣]≤2⋅DKL(πFold∥πL)\mathbb{E}{s,a \sim \pi{F_{\text{old}}}} \left[ \left| 1 - \frac{\pi_L(a|s)}{\pi_{F_{\text{old}}}(a|s)} \right| \right] \leq \sqrt{2 \cdot D_{\text{KL}}\left( \pi_{F_{\text{old}}} \| \pi_L \right)}Es,a∼πFold[ 1−πFold(a∣s)πL(a∣s) ]≤2⋅DKL(πFold∥πL)

这一不等式的物理意义至关重要：KL散度直接量化了两个策略分布的"距离"，而IS比率的偏离被该距离所束缚。因此，只要在Follower更新过程中显式约束其与Leader的KL散度，就能将离策略IS比率锁定在 111 附近，从而保障ESS与梯度估计的可靠性。这一结论为CPO的KL约束设计提供了严格的理论依据------KL约束不是随意的正则化，而是维持离策略学习可行性的必要结构。
KL散度
策略距离
IS偏离上界
ESS保障
梯度可靠
稳定训练

5. 耦合策略优化方法

5.1 总体架构设计

耦合策略优化（CPO）在SAPG的Leader-Follower框架基础上，引入了两层耦合机制：纵向耦合 通过KL散度约束绑定Leader与Follower的策略距离；横向耦合通过对抗判别器维持Follower之间的差异化分布。二者协同作用，实现了"以Leader为中心、以Follower为卫星"的结构化探索阵型。

CPO的完整数据流如下：并行环境被均分为 MMM 个块，Leader与Follower各自负责一块。每轮迭代中，所有策略同步采集样本；Follower样本经IS加权后汇入Leader的离策略更新；同时，所有样本被送入对抗判别器，计算身份预测损失并转化为Follower的内在奖励。Follower的更新目标在标准PPO损失之上叠加KL惩罚项与对抗奖励，确保其既不离Leader过远，也不与其他Follower重合。
环境交互
Leader采样
Follower采样
Leader更新
判别器
对抗奖励
KL约束
Follower更新
策略部署

5.2 KL散度约束的Follower更新

CPO对Follower策略的更新施加前向KL散度惩罚，使其在探索的同时始终锚定于Leader策略的邻域内。Follower的优化目标扩展为：

LCPO,Fi(θ)=LPPO,Fi(θ)+β⋅DKL(πFi,θ∥πL,θ)L_{\text{CPO},F_i}(\theta) = L_{\text{PPO},F_i}(\theta) + \beta \cdot D_{\text{KL}}\left( \pi_{F_i,\theta} \| \pi_{L,\theta} \right)LCPO,Fi(θ)=LPPO,Fi(θ)+β⋅DKL(πFi,θ∥πL,θ)

其中 β\betaβ 为KL惩罚系数，控制耦合的松紧程度。前向KL DKL(P∥Q)=EP[log⁡PQ]D_{\text{KL}}(P \| Q) = \mathbb{E}_P \left[ \log \frac{P}{Q} \right]DKL(P∥Q)=EP[logQP] 的物理特性在于：它要求Follower的分布 PPP 在 QQQ 概率为零的区域也必须为零，即Follower不能探索Leader完全排斥的状态-动作对。这种"保守性"恰好符合CPO的设计意图------Follower应在Leader已验证的安全区域内进行精细化探索，而非盲目闯入未知深渊。

从优化角度看，KL惩罚项相当于在策略空间中构建了一个以Leader为球心、以 β−1\beta^{-1}β−1 为半径的软球约束。Follower的梯度更新被引导向球心方向回拉，防止其因熵驱动或奖励驱动而漂移至球外。当 β=0\beta = 0β=0 时，CPO退化为无约束的SAPG；当 β→∞\beta \to \inftyβ→∞ 时，所有Follower坍缩为Leader的复制体，多样性彻底丧失。因此，β\betaβ 的调参本质上是在探索广度与离策略可靠性之间寻找最优权衡点。

5.3 对抗奖励的多样性保持

KL约束虽然抑制了Follower的过度偏离，却也产生副作用：所有Follower被拉向Leader，彼此间的差异随之缩小，可能导致集体探索覆盖的收缩。为对抗这一"向心坍缩"趋势，CPO引入对抗奖励机制，灵感源自DIAYN（Diversity is All You Need）框架。

CPO训练一个策略身份判别器 Dξ(y∣st,at)D_{\xi}(y | s_t, a_t)Dξ(y∣st,at)，其输入为状态-动作对，输出为策略索引 y∈{0,...,M−1}y \in \{0, \dots, M-1\}y∈{0,...,M−1} 的预测概率。判别器通过最小化分类交叉熵损失进行训练：

LD(ξ)=−E(st,at,y)∼D[log⁡Dξ(y∣st,at)]L_D(\xi) = -\mathbb{E}{(s_t, a_t, y) \sim \mathcal{D}} \left[ \log D{\xi}(y | s_t, a_t) \right]LD(ξ)=−E(st,at,y)∼D[logDξ(y∣st,at)]

对于每个Follower策略，其对抗内在奖励定义为判别器对其身份预测的对数概率：

rtadv(st,at,y)=λadv⋅log⁡Dξ(y∣st,at)r_t^{\text{adv}}(s_t, a_t, y) = \lambda_{\text{adv}} \cdot \log D_{\xi}(y | s_t, a_t)rtadv(st,at,y)=λadv⋅logDξ(y∣st,at)

其中 λadv\lambda_{\text{adv}}λadv 为对抗奖励的缩放系数。物理意义解读：若Follower iii 在状态 sts_tst 下采取动作 ata_tat 后，判别器能高置信度地识别出该样本来自Follower iii，则说明Follower iii 探索了其他策略难以到达的专属区域。通过最大化这一识别置信度，Follower被激励去占据独特的生态位，从而在Leader邻域内形成差异化的子分布。

5.4 判别器设计与内在奖励流

判别器网络与策略网络共享观测编码器，但拥有独立的分类头。这种参数共享减少了表征学习的冗余，同时保证了判别器能访问策略网络已提取的高层特征。在每轮训练迭代中，来自所有策略的样本被汇入统一回放缓冲区 D\mathcal{D}D，判别器从中随机采样小批量数据进行更新。

内在奖励的注入遵循以下原则：对抗奖励仅作用于Follower的策略梯度，不影响价值函数的估计。这是因为价值函数需要反映环境的真实外部奖励结构，而对抗奖励属于人为构造的探索激励，不应扭曲对长期回报的预期。Follower的完整优势函数因此变为：

A^Fi(s,a)=A^extFi(s,a)+λadv⋅log⁡Dξ(y=i∣s,a)\hat{A}^{F_i}(s,a) = \hat{A}{\text{ext}}^{F_i}(s,a) + \lambda{\text{adv}} \cdot \log D_{\xi}(y=i | s, a)A^Fi(s,a)=A^extFi(s,a)+λadv⋅logDξ(y=i∣s,a)

其中 A^extFi\hat{A}_{\text{ext}}^{F_i}A^extFi 为基于外部奖励的标准GAE（Generalized Advantage Estimation）估计。这种"外部回报主导、内部奖励微调"的层级结构，确保了Follower在追求任务性能的同时，维持足够的个体辨识度。
状态动作
共享编码
策略网络
判别器头
身份预测
交叉熵损失
判别器更新
对数概率
对抗奖励
Follower优势
动作输出

6. 实验验证与性能分析

6.1 实验设置与基线方法

实验在Isaac Gym仿真器上进行，部署 N=24576N = 24576N=24576 个并行环境，划分为 M=6M = 6M=6 个块。任务集涵盖三类高挑战度机器人控制场景：

灵巧操作（Dexterous Manipulation）：ShadowHand、AllegroHand等六自由度五指手的复杂姿态控制；
夹爪操作（Gripper-based Manipulation）：FrankaCubePush、Stack等基于平行夹爪的物体操控；
移动任务（Locomotion）：人形或四足机器人的步态控制。

基线方法包括：

PPO：标准单策略基线，每轮采集样本量与集成方法持平；
DexPBT：基于群体拓扑的并行训练，定期淘汰低性能策略并通过遗传算法生成新策略，但丢弃非选中策略的数据；
SAPG：当前最先进的Leader-Follower集成方法，利用IS聚合全部样本，但缺乏显式多样性约束。

所有方法共享相同的网络架构与超参数搜索空间，以确保比较的公平性。评估指标包括样本效率（达到目标性能所需的交互步数）与最终渐近性能（训练末期的平均回报）。

6.2 灵巧操作任务性能对比

在ShadowHand与AllegroHand等高维灵巧操作任务中，CPO展现出显著的样本效率优势与最终性能提升。相比SAPG，CPO的收敛速度提升约 30%30\%30% 至 50%50\%50%，最终回报提高 10%10\%10% 至 20%20\%20%。这一优势源于KL约束对离策略IS比率的稳定作用：CPO的IS比率分布集中在 111 附近，ESS显著高于SAPG，使得Leader能够高效利用Follower的探索成果。

DexPBT虽然在部分简单任务中收敛较快，但其数据丢弃机制导致整体样本利用率低下。PPO在所有集成方法面前均处于劣势，验证了单一策略在万级并行环境下的探索瓶颈。值得注意的是，CPO在最具挑战性的AllegroKukaReorientation任务（涉及手臂-手掌协同的空中重定向）上优势最为明显，表明受控多样性对于高维协同控制至关重要。
任务难度
简单移动
夹爪操作
灵巧操作
PBT优势
CPO领先
CPO显著领先
性能对比

6.3 消融实验与组件贡献分析

为严格验证KL约束与对抗奖励的独立贡献，设计三组消融变体：

CPO（完整版）：同时启用KL约束与对抗奖励；
CPO w/o AdR ：移除对抗奖励（λadv=0\lambda_{\text{adv}} = 0λadv=0），仅保留KL约束；
CPO w/o KLC ：移除KL约束（β=0\beta = 0β=0），仅保留对抗奖励。

实验结果表明：

移除KL约束导致Follower策略严重偏离Leader，IS比率分布出现长尾，ESS骤降，训练曲线震荡甚至发散。这直接验证了理论分析中关于IS偏离与训练不稳定性的因果关系。
移除对抗奖励 时，Follower策略虽被约束在Leader邻域内，但彼此高度重叠，探索覆盖显著收缩。在ShadowHand等需要精细分工的任务中，性能较完整版下降约 15%15\%15%。
完整CPO兼具稳定性与多样性，两个组件形成互补：KL约束提供"安全边界"，对抗奖励提供"内部张力"，二者共同维持了Leader周围的均衡分布。

6.4 策略分布的可视化分析

通过计算训练过程中所有策略对之间的前向KL散度，可绘制策略关系的热力图。在SAPG中，部分Follower与Leader的KL散度在训练中后期急剧攀升，形成明显的"离群策略"（Misaligned Policies）。这些离群策略的样本对Leader更新几乎无贡献，反而引入噪声，阻碍收敛。

在CPO中，所有Follower与Leader的KL散度始终维持在较低水平，且Leader始终是每个Follower的最近邻（由热力图中的白色圆圈标记）。更为关键的是，Follower之间并非均匀分布，而是呈现出围绕Leader的辐射状结构：部分Follower偏向激进探索，部分偏向保守利用，形成自然的任务分工。这种"结构化多样性"（Structured Diversity）是CPO区别于简单熵增驱动的核心特征------多样性不是无序的扩散，而是有序的分布。
SAPG分布
离群Follower
IS比率爆炸
训练震荡
CPO分布
围绕Leader
IS比率稳定
训练稳定
性能差异

7. 结论与展望

7.1 核心结论

本文从理论分析与工程实践两个维度，系统论证了大规模并行强化学习中策略多样性的调控机制。核心结论可概括为三点：

第一，无约束的多样性是有害的。在Leader-Follower集成框架中，Follower策略的过度偏离会通过重要性采样比率放大有效样本量的衰减与PPO裁剪偏差的积累，最终损害而非提升学习效率。

第二，KL散度约束是稳定离策略集成的关键结构 。通过将Follower策略绑定在Leader的KL邻域内，IS比率被锁定在 111 附近，保障了离策略样本的高效利用与梯度估计的可靠性。

第三，对抗奖励实现了邻域内的差异化分布。在KL约束的"硬边界"之内，对抗判别器提供了"软激励"，驱使Follower占据不同的探索生态位，避免了向心坍缩。

7.2 未来方向

CPO当前采用固定的策略数量 MMM 与环境分块比例。然而，不同训练阶段与不同任务的最优探索规模可能存在显著差异。自适应地调整策略集成规模------例如在训练初期启用更多Follower以扩大覆盖，在收敛期减少Follower以集中精化------将是值得探索的方向。此外，将CPO的耦合思想拓展至多智能体协作场景，或结合注意力机制（Attention Mechanism）实现Follower间的动态通信，也可能为复杂协同任务带来新的突破。