学习协调偏好用于多目标多智能体强化学习

📖 概述

本文提出协调偏好多智能体策略优化（PCMA） ，一种用于多目标多智能体强化学习（MOMARL）的新型框架。PCMA使智能体能够学习协调的、智能体特定的偏好，从而诱导互补的权衡，提高团队性能并减少行为冲突。该方法在**集中式训练-分布式执行（CTDE）**范式下运行，并在粒子世界、无人机、 locomotion、星际争霸和真实世界交通控制环境中得到验证。

🎯 问题形式化与动机

核心挑战： 在MOMARL中，冲突不仅出现在目标之间，还出现在具有不同观测、角色和优先级权重的智能体之间。使用固定共享偏好向量的标准标量化强制同质行为，导致竞争或效率低下。
关键洞察： 对多样协调偏好进行策略 conditioning 允许智能体占据帕累托前沿的不同区域，实现角色专业化更好的团队协调。
形式化： 合作MOMARL被框架化为团队最优均衡问题 ：找到偏好配置 p \mathbf{p} p 及其诱导的均衡 θ ∗ ( p ) \theta^*(\mathbf{p}) θ∗(p)，以最大化团队目标 J t e a m J_{\mathrm{team}} Jteam。

📐 理论基础

🔹 一阶团队改进与偏好多样性

团队改进矩阵： B i , k : = ( ∇ θ i J t e a m ( θ ) ) ⊤ ∇ θ i J i , k ( θ ) B_{i,k} := (\nabla_{\theta_i} J_{\mathrm{team}}(\theta))^\top \nabla_{\theta_i} J_{i,k}(\theta) Bi,k:=(∇θiJteam(θ))⊤∇θiJi,k(θ) 衡量智能体 i i i 的第 k k k 个目标对团队改进的贡献。
假设 4.1（偏好-改进对齐）： 中心偏好 p ~ i \tilde{p}_i p~i 和改进方向 b ~ i \tilde{b}_i b~i 满足 p ~ i ⊤ b ~ i ∥ p ~ i ∥ 2 2 ≥ κ > 0 \frac{\tilde{p}_i^\top \tilde{b}_i}{\|\tilde{p}_i\|_2^2} \geq \kappa > 0 ∥p~i∥22p~i⊤b~i≥κ>0。
定理 4.2（团队改进分解）：

math 复制代码

J_{\mathrm{team}}(\theta_{\mathrm{new}}) - J_{\mathrm{team}}(\theta) \geq \eta \sum_{i=1}^N \|\nabla_{\theta_i} J_{\mathrm{team}}(\theta)\|_2^2 + \eta N (\bar{p}^\top \bar{b} + \kappa \mathcal{D}_p)

其中 D p = 1 2 N 2 ∑ i , j ∥ p i − p j ∥ 2 2 \mathcal{D}p = \frac{1}{2N^2}\sum{i,j}\|p_i - p_j\|_2^2 Dp=2N21∑i,j∥pi−pj∥22 是成对偏好距离 。多样性 D p \mathcal{D}_p Dp 直接提升一阶团队改进。

🔹 均衡追踪

引理 4.3： 在非奇异雅可比条件下，局部纳什均衡 θ ∗ ( p ) \theta^*(\mathbf{p}) θ∗(p) 随 p \mathbf{p} p 连续变化。
定理 4.6（均衡追踪）： 在缓慢偏好更新下，追踪误差 e t = ∥ θ t − θ ( p t ) ∥ e_t = \|\theta^t - \theta(\mathbf{p}^t)\| et=∥θt−θ(pt)∥ 满足：

math 复制代码

e_{t+1} \leq \rho e_t + C \|\mathbf{p}^{t+1} - \mathbf{p}^t\| \implies \limsup_{t\to\infty} e_t \leq \frac{C}{1-\rho}\delta

保证当偏好配置缓慢变化时稳定收敛。

⚙️ 方法：PCMA算法

🧩 架构与训练范式

CTDE框架： 集中式批评家训练；分布式演员执行。
偏好条件演员： 偏好 p i p_i pi 拼接为局部观测 o i o_i oi 的输入。
双批评家设计：
- 集中式团队批评家估计 A t e a m A^{\mathrm{team}} Ateam
- 个体向量批评家估计 A i i n d \mathbf{A}_i^{\mathrm{ind}} Aiind

📉 损失函数

批评家损失：

math 复制代码

\mathcal{L}_{\mathrm{critic}} = \mathbb{E}_\tau \left[ (V^{\mathrm{team}}(\mathbf{o}) - R^{\mathrm{team}})^2 + \sum_{i=1}^N \|\mathbf{V}^i(o_i) - \mathbf{R}^i\|_2^2 \right]

演员更新（基于PPO）：

math 复制代码

\mathcal{L}_{\mathrm{actor}}(\theta) = \mathcal{L}_{\mathrm{PPO}}\left(\pi_\theta(\cdot|o_i, p_i), A_{U_i}\right), \quad A_{U_i} = A^{\mathrm{team}} + \lambda p_i^\top \mathbf{A}_i^{\mathrm{ind}}

🎲 协调偏好规划

每个智能体学习随机规划器 输出Dirichlet参数： α i = ϕ ψ ( o i ) \alpha_i = \phi_\psi(o_i) αi=ϕψ(oi)，采样 p i ∼ D i r ( α i ) p_i \sim \mathrm{Dir}(\alpha_i) pi∼Dir(αi)。
多样性正则化： 通过 D α = E $D p$ \mathcal{D}_\alpha = \mathbb{E} $\\mathcal{D}_p$ Dα=E $Dp$ 鼓励不同偏好。
规划器损失：

math 复制代码

\mathcal{L}_{\mathrm{plan}}(\psi) = \mathcal{L}_{\mathrm{PPO}}\left(\phi_\psi(\cdot|o_i), A^{\mathrm{team}}\right) - \lambda_1 \mathcal{D}_\alpha

🧪 实验验证

🌍 环境与设置

类别	环境	奖励结构
粒子世界	合作扩散、安全捕食者-猎物	稀疏团队 + 向量个体奖励
无人机控制	捕获、护航	稀疏团队 + 向量个体奖励
移动控制	MOMAwalker	包裹进度 + 稳定性惩罚
星际争霸（SMAC）	3m, 2s3z, 8m	团队胜利 + $伤害造成, -伤害承受$
真实世界	OpenCDA-MARL（CARLA）	效率 + 安全/交互目标

📊 性能摘要

PCMA始终优于或持平基线（MADDPG、IPPO、MAPPO）在成功率和奖励指标上。

示例结果：

环境	指标	MADDPG	IPPO	MAPPO	PCMA（本文）
合作扩散	成功率	0.38	0.27	0.80	1.00
安全捕食者-猎物	成功率	0.68	0.60	0.91	0.96
SMAC-2s3z	成功率	0.63	0.93	0.97	1.00
MOMAwalker	前进距离	75.04	6.69	70.52	93.64

CARLA交通控制（OpenCDA-MARL）

设置	骨干	效用↑	成功率(%)↑	碰撞率(%)↓	吞吐量↑
合作	SAC	-4776.9	68.6	31.4	1692
合作	MAPPO	-16793.3	55.4	42.5	1417
合作	PCMA	-2072.9	69.6	30.4	1716
竞争	PCMA	-2877.1	68.0	23.3	1192

消融与行为分析

移除多样性正则化（ λ 1 = 0 \lambda_1=0 λ1=0）或使用随机/相同偏好会降低性能。
最优 λ 1 ∈ $0.02 , 0.10$ \lambda_1 \in $0.02, 0.10$ λ1∈ $0.02,0.10$ 和 λ 2 ∈ $0.5 , 1.0$ \lambda_2 \in $0.5, 1.0$ λ2∈ $0.5,1.0$ 。
在SMAC中，智能体自然分裂为激进攻击者 vs 前线防御者（通过伤害造成 vs 伤害承受衡量）。

🖼️ 论文中的图片

编号	图片路径	描述
1	`figures/method/algo_flowchart.png`	算法流程图
2	`figures/exp_section1/spread_pref_evolution.png`	扩散偏好演化
3	`figures/exp_section1/pf_spread.png`	扩散帕累托前沿
4	`figures/exp_section1/predator_pref.png`	捕食者偏好
5	`figures/exp_section1/pf_predator_prey.png`	捕食者-猎物帕累托前沿
6	`figures/exp_section1/8m_role.png`	8m角色分配
7	`figures/exp_section1/2s3z_role.png`	2s3z角色分配
8	`figures/mompe/spread/success_rate.png`	扩散成功率
9	`figures/mompe/predator_prey/success_rate.png`	捕食者-猎物成功率
10	`figures/momaland/catch/success_rate.png`	捕获成功率
11	`figures/momaland/escort/mr.png`	护航移动奖励
12	`figures/momaland/walker/forward_distance.png`	移动前进距离
13	`figures/smac/3m.png`	3m结果
14	`figures/smac/2s3z.png`	2s3z结果
15	`figures/smac/8m.png`	8m结果
16	`figures/ablation/lambda1.png`	λ 1 \lambda_1 λ1消融
17	`figures/ablation/lambda2.png`	λ 2 \lambda_2 λ2消融
18	`figures/ablation/pref_coord.png`	偏好协调消融
19	`figures/envs/illustration/catch.png`	捕获环境示意图
20	`figures/envs/illustration/multiwalker.png`	多行走者环境
21	`figures/envs/illustration/predatorprey.png`	捕食者-猎物环境
22	`figures/envs/illustration/smac.png`	SMAC环境

图片URL（基础路径）

所有图片的基础URL为：https://arxiv.org/html/2606.14693v1/

完整URL示例：

https://arxiv.org/html/2606.14693v1/figures/method/algo_flowchart.png
https://arxiv.org/html/2606.14693v1/figures/exp_section1/spread_pref_evolution.png
https://arxiv.org/html/2606.14693v1/figures/smac/2s3z.png

🔗 相关资源与链接

资源	URL
论文代码仓库	https://github.com/PengxinWang/PrefMARL
arXiv论文页面	https://arxiv.org/abs/2606.14693
arXiv HTML版本	https://arxiv.org/html/2606.14693v1
arXiv PDF版本	https://arxiv.org/pdf/2606.14693v1.pdf
arXiv LaTeX源	https://arxiv.org/e-print/2606.14693
arXiv反馈	https://github.com/arXiv/html_feedback/issues
LaTeXML项目	https://github.com/brucemiller/LaTeXML

💡 专家分析

核心贡献

团队最优均衡形式化： 将合作MOMARL框架化为寻找使诱导均衡最大化团队目标的偏好配置。
理论保证： 证明偏好多样性带来团队性能的一阶改进，并在缓慢偏好更新下建立均衡追踪界限。
PCMA算法： 提出基于PPO的实用方法，在CTDE下具有随机偏好规划器和多样性正则化学习。
经验验证： 在粒子世界、无人机、移动、星际争霸和CARLA交通控制基准中优于MADDPG、IPPO和MAPPO。

关键洞察

偏好多样性是团队改进的关键： 理论证明表明，偏好距离 D p \mathcal{D}_p Dp 直接提升一阶团队改进。
均衡追踪稳定性： 缓慢偏好更新允许策略稳定追踪移动均衡而不振荡。
角色自动专业化： 在SMAC实验中，智能体自动分裂为攻击者和防御者角色，无需人工指定。

应用前景

自动驾驶： 多车辆协调（如一个优先安全，一个优先效率）
无人机编队： 多无人机任务分配与协调
游戏AI： 多智能体角色专业化与团队协作
交通控制： 真实世界路口车辆协调

📝 实验步骤与参数

训练参数（参考）

优化器： Adam
学习率： 3 × 10 − 4 3 \times 10^{-4} 3×10−4
折扣因子 γ \gamma γ： 0.99
PPO裁剪参数： 0.2
批次大小： 2048
训练轮数： 5000（根据环境调整）

偏好规划参数

Dirichlet初始参数： α 0 = 1.0 \alpha_0 = 1.0 α0=1.0
多样性权重 λ 1 \lambda_1 λ1： $0.02 , 0.10$ $0.02, 0.10$ $0.02,0.10$ （通过消融实验确定）
偏好平滑权重 λ 2 \lambda_2 λ2： $0.5 , 1.0$ $0.5, 1.0$ $0.5,1.0$

评估协议

每个实验运行 10次 随机种子
报告 均值 ± 标准差
使用 滑动窗口平均 评估稳定性