学习协调偏好用于多目标多智能体强化学习

学习协调偏好用于多目标多智能体强化学习

来源: arXiv:2606.14693v1

代码仓库: PengxinWang/PrefMARL


📖 概述

本文提出协调偏好多智能体策略优化(PCMA) ,一种用于多目标多智能体强化学习(MOMARL)的新型框架。PCMA使智能体能够学习协调的、智能体特定的偏好,从而诱导互补的权衡,提高团队性能并减少行为冲突。该方法在**集中式训练-分布式执行(CTDE)**范式下运行,并在粒子世界、无人机、 locomotion、星际争霸和真实世界交通控制环境中得到验证。


🎯 问题形式化与动机

  • 核心挑战: 在MOMARL中,冲突不仅出现在目标之间,还出现在具有不同观测、角色和优先级权重的智能体之间。使用固定共享偏好向量的标准标量化强制同质行为,导致竞争或效率低下。
  • 关键洞察:多样协调偏好进行策略 conditioning 允许智能体占据帕累托前沿的不同区域,实现角色专业化更好的团队协调。
  • 形式化: 合作MOMARL被框架化为团队最优均衡问题 :找到偏好配置 p \mathbf{p} p 及其诱导的均衡 θ ∗ ( p ) \theta^*(\mathbf{p}) θ∗(p),以最大化团队目标 J t e a m J_{\mathrm{team}} Jteam。

📐 理论基础

🔹 一阶团队改进与偏好多样性

  • 团队改进矩阵: B i , k : = ( ∇ θ i J t e a m ( θ ) ) ⊤ ∇ θ i J i , k ( θ ) B_{i,k} := (\nabla_{\theta_i} J_{\mathrm{team}}(\theta))^\top \nabla_{\theta_i} J_{i,k}(\theta) Bi,k:=(∇θiJteam(θ))⊤∇θiJi,k(θ) 衡量智能体 i i i 的第 k k k 个目标对团队改进的贡献。
  • 假设 4.1(偏好-改进对齐): 中心偏好 p ~ i \tilde{p}_i p~i 和改进方向 b ~ i \tilde{b}_i b~i 满足 p ~ i ⊤ b ~ i ∥ p ~ i ∥ 2 2 ≥ κ > 0 \frac{\tilde{p}_i^\top \tilde{b}_i}{\|\tilde{p}_i\|_2^2} \geq \kappa > 0 ∥p~i∥22p~i⊤b~i≥κ>0。
  • 定理 4.2(团队改进分解):
math 复制代码
J_{\mathrm{team}}(\theta_{\mathrm{new}}) - J_{\mathrm{team}}(\theta) \geq \eta \sum_{i=1}^N \|\nabla_{\theta_i} J_{\mathrm{team}}(\theta)\|_2^2 + \eta N (\bar{p}^\top \bar{b} + \kappa \mathcal{D}_p)

其中 D p = 1 2 N 2 ∑ i , j ∥ p i − p j ∥ 2 2 \mathcal{D}p = \frac{1}{2N^2}\sum{i,j}\|p_i - p_j\|_2^2 Dp=2N21∑i,j∥pi−pj∥22 是成对偏好距离 。多样性 D p \mathcal{D}_p Dp 直接提升一阶团队改进。

🔹 均衡追踪

  • 引理 4.3: 在非奇异雅可比条件下,局部纳什均衡 θ ∗ ( p ) \theta^*(\mathbf{p}) θ∗(p) 随 p \mathbf{p} p 连续变化。
  • 定理 4.6(均衡追踪): 在缓慢偏好更新下,追踪误差 e t = ∥ θ t − θ ( p t ) ∥ e_t = \|\theta^t - \theta(\mathbf{p}^t)\| et=∥θt−θ(pt)∥ 满足:
math 复制代码
e_{t+1} \leq \rho e_t + C \|\mathbf{p}^{t+1} - \mathbf{p}^t\| \implies \limsup_{t\to\infty} e_t \leq \frac{C}{1-\rho}\delta

保证当偏好配置缓慢变化时稳定收敛。


⚙️ 方法:PCMA算法

🧩 架构与训练范式

  • CTDE框架: 集中式批评家训练;分布式演员执行。
  • 偏好条件演员: 偏好 p i p_i pi 拼接为局部观测 o i o_i oi 的输入。
  • 双批评家设计:
    • 集中式团队批评家估计 A t e a m A^{\mathrm{team}} Ateam
    • 个体向量批评家估计 A i i n d \mathbf{A}_i^{\mathrm{ind}} Aiind

📉 损失函数

批评家损失:

math 复制代码
\mathcal{L}_{\mathrm{critic}} = \mathbb{E}_\tau \left[ (V^{\mathrm{team}}(\mathbf{o}) - R^{\mathrm{team}})^2 + \sum_{i=1}^N \|\mathbf{V}^i(o_i) - \mathbf{R}^i\|_2^2 \right]

演员更新(基于PPO):

math 复制代码
\mathcal{L}_{\mathrm{actor}}(\theta) = \mathcal{L}_{\mathrm{PPO}}\left(\pi_\theta(\cdot|o_i, p_i), A_{U_i}\right), \quad A_{U_i} = A^{\mathrm{team}} + \lambda p_i^\top \mathbf{A}_i^{\mathrm{ind}}

🎲 协调偏好规划

  • 每个智能体学习随机规划器 输出Dirichlet参数: α i = ϕ ψ ( o i ) \alpha_i = \phi_\psi(o_i) αi=ϕψ(oi),采样 p i ∼ D i r ( α i ) p_i \sim \mathrm{Dir}(\alpha_i) pi∼Dir(αi)。
  • 多样性正则化: 通过 D α = E D p \mathcal{D}_\alpha = \mathbb{E}\\mathcal{D}_p Dα=EDp 鼓励不同偏好。
  • 规划器损失:
math 复制代码
\mathcal{L}_{\mathrm{plan}}(\psi) = \mathcal{L}_{\mathrm{PPO}}\left(\phi_\psi(\cdot|o_i), A^{\mathrm{team}}\right) - \lambda_1 \mathcal{D}_\alpha

🧪 实验验证

🌍 环境与设置

类别 环境 奖励结构
粒子世界 合作扩散、安全捕食者-猎物 稀疏团队 + 向量个体奖励
无人机控制 捕获、护航 稀疏团队 + 向量个体奖励
移动控制 MOMAwalker 包裹进度 + 稳定性惩罚
星际争霸(SMAC) 3m, 2s3z, 8m 团队胜利 + 伤害造成, -伤害承受
真实世界 OpenCDA-MARL(CARLA) 效率 + 安全/交互目标

📊 性能摘要

PCMA始终优于或持平基线(MADDPG、IPPO、MAPPO)在成功率和奖励指标上。

示例结果:

环境 指标 MADDPG IPPO MAPPO PCMA(本文)
合作扩散 成功率 0.38 0.27 0.80 1.00
安全捕食者-猎物 成功率 0.68 0.60 0.91 0.96
SMAC-2s3z 成功率 0.63 0.93 0.97 1.00
MOMAwalker 前进距离 75.04 6.69 70.52 93.64

CARLA交通控制(OpenCDA-MARL)

设置 骨干 效用↑ 成功率(%)↑ 碰撞率(%)↓ 吞吐量↑
合作 SAC -4776.9 68.6 31.4 1692
合作 MAPPO -16793.3 55.4 42.5 1417
合作 PCMA -2072.9 69.6 30.4 1716
竞争 PCMA -2877.1 68.0 23.3 1192

消融与行为分析

  • 移除多样性正则化( λ 1 = 0 \lambda_1=0 λ1=0)或使用随机/相同偏好会降低性能。
  • 最优 λ 1 ∈ 0.02 , 0.10 \lambda_1 \in 0.02, 0.10 λ1∈0.02,0.10 和 λ 2 ∈ 0.5 , 1.0 \lambda_2 \in 0.5, 1.0 λ2∈0.5,1.0
  • 在SMAC中,智能体自然分裂为激进攻击者 vs 前线防御者(通过伤害造成 vs 伤害承受衡量)。

🖼️ 论文中的图片

编号 图片路径 描述
1 figures/method/algo_flowchart.png 算法流程图
2 figures/exp_section1/spread_pref_evolution.png 扩散偏好演化
3 figures/exp_section1/pf_spread.png 扩散帕累托前沿
4 figures/exp_section1/predator_pref.png 捕食者偏好
5 figures/exp_section1/pf_predator_prey.png 捕食者-猎物帕累托前沿
6 figures/exp_section1/8m_role.png 8m角色分配
7 figures/exp_section1/2s3z_role.png 2s3z角色分配
8 figures/mompe/spread/success_rate.png 扩散成功率
9 figures/mompe/predator_prey/success_rate.png 捕食者-猎物成功率
10 figures/momaland/catch/success_rate.png 捕获成功率
11 figures/momaland/escort/mr.png 护航移动奖励
12 figures/momaland/walker/forward_distance.png 移动前进距离
13 figures/smac/3m.png 3m结果
14 figures/smac/2s3z.png 2s3z结果
15 figures/smac/8m.png 8m结果
16 figures/ablation/lambda1.png λ 1 \lambda_1 λ1消融
17 figures/ablation/lambda2.png λ 2 \lambda_2 λ2消融
18 figures/ablation/pref_coord.png 偏好协调消融
19 figures/envs/illustration/catch.png 捕获环境示意图
20 figures/envs/illustration/multiwalker.png 多行走者环境
21 figures/envs/illustration/predatorprey.png 捕食者-猎物环境
22 figures/envs/illustration/smac.png SMAC环境

图片URL(基础路径)

所有图片的基础URL为:https://arxiv.org/html/2606.14693v1/

完整URL示例:

  • https://arxiv.org/html/2606.14693v1/figures/method/algo_flowchart.png
  • https://arxiv.org/html/2606.14693v1/figures/exp_section1/spread_pref_evolution.png
  • https://arxiv.org/html/2606.14693v1/figures/smac/2s3z.png

🔗 相关资源与链接

资源 URL
论文代码仓库 https://github.com/PengxinWang/PrefMARL
arXiv论文页面 https://arxiv.org/abs/2606.14693
arXiv HTML版本 https://arxiv.org/html/2606.14693v1
arXiv PDF版本 https://arxiv.org/pdf/2606.14693v1.pdf
arXiv LaTeX源 https://arxiv.org/e-print/2606.14693
arXiv反馈 https://github.com/arXiv/html_feedback/issues
LaTeXML项目 https://github.com/brucemiller/LaTeXML

💡 专家分析

核心贡献

  1. 团队最优均衡形式化: 将合作MOMARL框架化为寻找使诱导均衡最大化团队目标的偏好配置。
  2. 理论保证: 证明偏好多样性带来团队性能的一阶改进,并在缓慢偏好更新下建立均衡追踪界限。
  3. PCMA算法: 提出基于PPO的实用方法,在CTDE下具有随机偏好规划器和多样性正则化学习。
  4. 经验验证: 在粒子世界、无人机、移动、星际争霸和CARLA交通控制基准中优于MADDPG、IPPO和MAPPO。

关键洞察

  • 偏好多样性是团队改进的关键: 理论证明表明,偏好距离 D p \mathcal{D}_p Dp 直接提升一阶团队改进。
  • 均衡追踪稳定性: 缓慢偏好更新允许策略稳定追踪移动均衡而不振荡。
  • 角色自动专业化: 在SMAC实验中,智能体自动分裂为攻击者和防御者角色,无需人工指定。

应用前景

  • 自动驾驶: 多车辆协调(如一个优先安全,一个优先效率)
  • 无人机编队: 多无人机任务分配与协调
  • 游戏AI: 多智能体角色专业化与团队协作
  • 交通控制: 真实世界路口车辆协调

📝 实验步骤与参数

训练参数(参考)

  • 优化器: Adam
  • 学习率: 3 × 10 − 4 3 \times 10^{-4} 3×10−4
  • 折扣因子 γ \gamma γ: 0.99
  • PPO裁剪参数: 0.2
  • 批次大小: 2048
  • 训练轮数: 5000(根据环境调整)

偏好规划参数

  • Dirichlet初始参数: α 0 = 1.0 \alpha_0 = 1.0 α0=1.0
  • 多样性权重 λ 1 \lambda_1 λ1: 0.02 , 0.10 0.02, 0.10 0.02,0.10(通过消融实验确定)
  • 偏好平滑权重 λ 2 \lambda_2 λ2: 0.5 , 1.0 0.5, 1.0 0.5,1.0

评估协议

  • 每个实验运行 10次 随机种子
  • 报告 均值 ± 标准差
  • 使用 滑动窗口平均 评估稳定性
相关推荐
lijgvnns1 小时前
散户做股票研究与复盘,主流AI工具的场景化使用指南
大数据·人工智能·数据挖掘
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月15日
大数据·人工智能·python·信息可视化·自然语言处理
云和数据.ChenGuang1 小时前
人工智能机器学习的偏置项 剖析
人工智能·深度学习·机器学习·数据挖掘
数据皮皮侠AI1 小时前
上市公司战略性新兴产业专利数据库(2003-2024)
大数据·人工智能·笔记·机器学习·回归
安逸sgr1 小时前
《图解机器学习-第五章》:过拟合和欠拟合:为什么训练集很好,测试集很差?
人工智能·机器学习
库拉AI小李1 小时前
# 数据清洗与分析:Gemini 3.5 处理 Excel 数据的实操体验
前端·人工智能·后端
Xiaofeng36931 小时前
Claude 4.8 提示词工程:结构化输出的5个黄金模板
人工智能
成都易yisdong1 小时前
上海某平面坐标系与CGCS2000坐标互转详解(含全域拟合点、实战案例、保密规范)
大数据·人工智能·算法
Jump 不二1 小时前
从 CV 扩散到 NLP:详解 Google DiffusionGemma 架构、推理机制与优劣
人工智能·深度学习·自然语言处理