学习协调偏好用于多目标多智能体强化学习
代码仓库: PengxinWang/PrefMARL
📖 概述
本文提出协调偏好多智能体策略优化(PCMA) ,一种用于多目标多智能体强化学习(MOMARL)的新型框架。PCMA使智能体能够学习协调的、智能体特定的偏好,从而诱导互补的权衡,提高团队性能并减少行为冲突。该方法在**集中式训练-分布式执行(CTDE)**范式下运行,并在粒子世界、无人机、 locomotion、星际争霸和真实世界交通控制环境中得到验证。
🎯 问题形式化与动机
- 核心挑战: 在MOMARL中,冲突不仅出现在目标之间,还出现在具有不同观测、角色和优先级权重的智能体之间。使用固定共享偏好向量的标准标量化强制同质行为,导致竞争或效率低下。
- 关键洞察: 对多样协调偏好进行策略 conditioning 允许智能体占据帕累托前沿的不同区域,实现角色专业化更好的团队协调。
- 形式化: 合作MOMARL被框架化为团队最优均衡问题 :找到偏好配置 p \mathbf{p} p 及其诱导的均衡 θ ∗ ( p ) \theta^*(\mathbf{p}) θ∗(p),以最大化团队目标 J t e a m J_{\mathrm{team}} Jteam。
📐 理论基础
🔹 一阶团队改进与偏好多样性
- 团队改进矩阵: B i , k : = ( ∇ θ i J t e a m ( θ ) ) ⊤ ∇ θ i J i , k ( θ ) B_{i,k} := (\nabla_{\theta_i} J_{\mathrm{team}}(\theta))^\top \nabla_{\theta_i} J_{i,k}(\theta) Bi,k:=(∇θiJteam(θ))⊤∇θiJi,k(θ) 衡量智能体 i i i 的第 k k k 个目标对团队改进的贡献。
- 假设 4.1(偏好-改进对齐): 中心偏好 p ~ i \tilde{p}_i p~i 和改进方向 b ~ i \tilde{b}_i b~i 满足 p ~ i ⊤ b ~ i ∥ p ~ i ∥ 2 2 ≥ κ > 0 \frac{\tilde{p}_i^\top \tilde{b}_i}{\|\tilde{p}_i\|_2^2} \geq \kappa > 0 ∥p~i∥22p~i⊤b~i≥κ>0。
- 定理 4.2(团队改进分解):
math
J_{\mathrm{team}}(\theta_{\mathrm{new}}) - J_{\mathrm{team}}(\theta) \geq \eta \sum_{i=1}^N \|\nabla_{\theta_i} J_{\mathrm{team}}(\theta)\|_2^2 + \eta N (\bar{p}^\top \bar{b} + \kappa \mathcal{D}_p)
其中 D p = 1 2 N 2 ∑ i , j ∥ p i − p j ∥ 2 2 \mathcal{D}p = \frac{1}{2N^2}\sum{i,j}\|p_i - p_j\|_2^2 Dp=2N21∑i,j∥pi−pj∥22 是成对偏好距离 。多样性 D p \mathcal{D}_p Dp 直接提升一阶团队改进。
🔹 均衡追踪
- 引理 4.3: 在非奇异雅可比条件下,局部纳什均衡 θ ∗ ( p ) \theta^*(\mathbf{p}) θ∗(p) 随 p \mathbf{p} p 连续变化。
- 定理 4.6(均衡追踪): 在缓慢偏好更新下,追踪误差 e t = ∥ θ t − θ ( p t ) ∥ e_t = \|\theta^t - \theta(\mathbf{p}^t)\| et=∥θt−θ(pt)∥ 满足:
math
e_{t+1} \leq \rho e_t + C \|\mathbf{p}^{t+1} - \mathbf{p}^t\| \implies \limsup_{t\to\infty} e_t \leq \frac{C}{1-\rho}\delta
保证当偏好配置缓慢变化时稳定收敛。
⚙️ 方法:PCMA算法
🧩 架构与训练范式
- CTDE框架: 集中式批评家训练;分布式演员执行。
- 偏好条件演员: 偏好 p i p_i pi 拼接为局部观测 o i o_i oi 的输入。
- 双批评家设计:
- 集中式团队批评家估计 A t e a m A^{\mathrm{team}} Ateam
- 个体向量批评家估计 A i i n d \mathbf{A}_i^{\mathrm{ind}} Aiind
📉 损失函数
批评家损失:
math
\mathcal{L}_{\mathrm{critic}} = \mathbb{E}_\tau \left[ (V^{\mathrm{team}}(\mathbf{o}) - R^{\mathrm{team}})^2 + \sum_{i=1}^N \|\mathbf{V}^i(o_i) - \mathbf{R}^i\|_2^2 \right]
演员更新(基于PPO):
math
\mathcal{L}_{\mathrm{actor}}(\theta) = \mathcal{L}_{\mathrm{PPO}}\left(\pi_\theta(\cdot|o_i, p_i), A_{U_i}\right), \quad A_{U_i} = A^{\mathrm{team}} + \lambda p_i^\top \mathbf{A}_i^{\mathrm{ind}}
🎲 协调偏好规划
- 每个智能体学习随机规划器 输出Dirichlet参数: α i = ϕ ψ ( o i ) \alpha_i = \phi_\psi(o_i) αi=ϕψ(oi),采样 p i ∼ D i r ( α i ) p_i \sim \mathrm{Dir}(\alpha_i) pi∼Dir(αi)。
- 多样性正则化: 通过 D α = E D p \mathcal{D}_\alpha = \mathbb{E}\\mathcal{D}_p Dα=EDp 鼓励不同偏好。
- 规划器损失:
math
\mathcal{L}_{\mathrm{plan}}(\psi) = \mathcal{L}_{\mathrm{PPO}}\left(\phi_\psi(\cdot|o_i), A^{\mathrm{team}}\right) - \lambda_1 \mathcal{D}_\alpha
🧪 实验验证
🌍 环境与设置
| 类别 | 环境 | 奖励结构 |
|---|---|---|
| 粒子世界 | 合作扩散、安全捕食者-猎物 | 稀疏团队 + 向量个体奖励 |
| 无人机控制 | 捕获、护航 | 稀疏团队 + 向量个体奖励 |
| 移动控制 | MOMAwalker | 包裹进度 + 稳定性惩罚 |
| 星际争霸(SMAC) | 3m, 2s3z, 8m | 团队胜利 + 伤害造成, -伤害承受 |
| 真实世界 | OpenCDA-MARL(CARLA) | 效率 + 安全/交互目标 |
📊 性能摘要
PCMA始终优于或持平基线(MADDPG、IPPO、MAPPO)在成功率和奖励指标上。
示例结果:
| 环境 | 指标 | MADDPG | IPPO | MAPPO | PCMA(本文) |
|---|---|---|---|---|---|
| 合作扩散 | 成功率 | 0.38 | 0.27 | 0.80 | 1.00 |
| 安全捕食者-猎物 | 成功率 | 0.68 | 0.60 | 0.91 | 0.96 |
| SMAC-2s3z | 成功率 | 0.63 | 0.93 | 0.97 | 1.00 |
| MOMAwalker | 前进距离 | 75.04 | 6.69 | 70.52 | 93.64 |
CARLA交通控制(OpenCDA-MARL)
| 设置 | 骨干 | 效用↑ | 成功率(%)↑ | 碰撞率(%)↓ | 吞吐量↑ |
|---|---|---|---|---|---|
| 合作 | SAC | -4776.9 | 68.6 | 31.4 | 1692 |
| 合作 | MAPPO | -16793.3 | 55.4 | 42.5 | 1417 |
| 合作 | PCMA | -2072.9 | 69.6 | 30.4 | 1716 |
| 竞争 | PCMA | -2877.1 | 68.0 | 23.3 | 1192 |
消融与行为分析
- 移除多样性正则化( λ 1 = 0 \lambda_1=0 λ1=0)或使用随机/相同偏好会降低性能。
- 最优 λ 1 ∈ 0.02 , 0.10 \lambda_1 \in 0.02, 0.10 λ1∈0.02,0.10 和 λ 2 ∈ 0.5 , 1.0 \lambda_2 \in 0.5, 1.0 λ2∈0.5,1.0。
- 在SMAC中,智能体自然分裂为激进攻击者 vs 前线防御者(通过伤害造成 vs 伤害承受衡量)。
🖼️ 论文中的图片
| 编号 | 图片路径 | 描述 |
|---|---|---|
| 1 | figures/method/algo_flowchart.png |
算法流程图 |
| 2 | figures/exp_section1/spread_pref_evolution.png |
扩散偏好演化 |
| 3 | figures/exp_section1/pf_spread.png |
扩散帕累托前沿 |
| 4 | figures/exp_section1/predator_pref.png |
捕食者偏好 |
| 5 | figures/exp_section1/pf_predator_prey.png |
捕食者-猎物帕累托前沿 |
| 6 | figures/exp_section1/8m_role.png |
8m角色分配 |
| 7 | figures/exp_section1/2s3z_role.png |
2s3z角色分配 |
| 8 | figures/mompe/spread/success_rate.png |
扩散成功率 |
| 9 | figures/mompe/predator_prey/success_rate.png |
捕食者-猎物成功率 |
| 10 | figures/momaland/catch/success_rate.png |
捕获成功率 |
| 11 | figures/momaland/escort/mr.png |
护航移动奖励 |
| 12 | figures/momaland/walker/forward_distance.png |
移动前进距离 |
| 13 | figures/smac/3m.png |
3m结果 |
| 14 | figures/smac/2s3z.png |
2s3z结果 |
| 15 | figures/smac/8m.png |
8m结果 |
| 16 | figures/ablation/lambda1.png |
λ 1 \lambda_1 λ1消融 |
| 17 | figures/ablation/lambda2.png |
λ 2 \lambda_2 λ2消融 |
| 18 | figures/ablation/pref_coord.png |
偏好协调消融 |
| 19 | figures/envs/illustration/catch.png |
捕获环境示意图 |
| 20 | figures/envs/illustration/multiwalker.png |
多行走者环境 |
| 21 | figures/envs/illustration/predatorprey.png |
捕食者-猎物环境 |
| 22 | figures/envs/illustration/smac.png |
SMAC环境 |
图片URL(基础路径)
所有图片的基础URL为:https://arxiv.org/html/2606.14693v1/
完整URL示例:
https://arxiv.org/html/2606.14693v1/figures/method/algo_flowchart.pnghttps://arxiv.org/html/2606.14693v1/figures/exp_section1/spread_pref_evolution.pnghttps://arxiv.org/html/2606.14693v1/figures/smac/2s3z.png
🔗 相关资源与链接
| 资源 | URL |
|---|---|
| 论文代码仓库 | https://github.com/PengxinWang/PrefMARL |
| arXiv论文页面 | https://arxiv.org/abs/2606.14693 |
| arXiv HTML版本 | https://arxiv.org/html/2606.14693v1 |
| arXiv PDF版本 | https://arxiv.org/pdf/2606.14693v1.pdf |
| arXiv LaTeX源 | https://arxiv.org/e-print/2606.14693 |
| arXiv反馈 | https://github.com/arXiv/html_feedback/issues |
| LaTeXML项目 | https://github.com/brucemiller/LaTeXML |
💡 专家分析
核心贡献
- 团队最优均衡形式化: 将合作MOMARL框架化为寻找使诱导均衡最大化团队目标的偏好配置。
- 理论保证: 证明偏好多样性带来团队性能的一阶改进,并在缓慢偏好更新下建立均衡追踪界限。
- PCMA算法: 提出基于PPO的实用方法,在CTDE下具有随机偏好规划器和多样性正则化学习。
- 经验验证: 在粒子世界、无人机、移动、星际争霸和CARLA交通控制基准中优于MADDPG、IPPO和MAPPO。
关键洞察
- 偏好多样性是团队改进的关键: 理论证明表明,偏好距离 D p \mathcal{D}_p Dp 直接提升一阶团队改进。
- 均衡追踪稳定性: 缓慢偏好更新允许策略稳定追踪移动均衡而不振荡。
- 角色自动专业化: 在SMAC实验中,智能体自动分裂为攻击者和防御者角色,无需人工指定。
应用前景
- 自动驾驶: 多车辆协调(如一个优先安全,一个优先效率)
- 无人机编队: 多无人机任务分配与协调
- 游戏AI: 多智能体角色专业化与团队协作
- 交通控制: 真实世界路口车辆协调
📝 实验步骤与参数
训练参数(参考)
- 优化器: Adam
- 学习率: 3 × 10 − 4 3 \times 10^{-4} 3×10−4
- 折扣因子 γ \gamma γ: 0.99
- PPO裁剪参数: 0.2
- 批次大小: 2048
- 训练轮数: 5000(根据环境调整)
偏好规划参数
- Dirichlet初始参数: α 0 = 1.0 \alpha_0 = 1.0 α0=1.0
- 多样性权重 λ 1 \lambda_1 λ1: 0.02 , 0.10 0.02, 0.10 0.02,0.10(通过消融实验确定)
- 偏好平滑权重 λ 2 \lambda_2 λ2: 0.5 , 1.0 0.5, 1.0 0.5,1.0
评估协议
- 每个实验运行 10次 随机种子
- 报告 均值 ± 标准差
- 使用 滑动窗口平均 评估稳定性