[论文阅读] 人工智能 + 软件工程 | LLM协作新突破:用多智能体强化学习实现高效协同——解析MAGRPO算法

LLM协作新突破:用多智能体强化学习实现高效协同------解析MAGRPO算法

论文:LLM Collaboration With Multi-Agent Reinforcement Learning

arXiv:2508.04652 (cross-list from cs.AI)

LLM Collaboration With Multi-Agent Reinforcement Learning

Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato

Subjects: Artificial Intelligence (cs.AI); Software Engineering (cs.SE)

一段话总结:

本文将LLM协作 建模为合作式多智能体强化学习(MARL) 问题,并形式化为Dec-POMDP ,以解决现有LLM微调框架依赖个体奖励导致协作困难的问题。为此,提出MAGRPO算法,通过集中式群体相对优势进行联合优化,同时保留去中心化执行以保证效率。实验表明,在写作(TLDR summarization、arXiv expansion)和编码(HumanEval、CoopHumanEval)协作任务中,MAGRPO能使LLM agents通过有效协作生成高质量响应,且效率优于单agent和其他多agent基线方法。该研究为MARL方法应用于LLM协作开辟了道路,并指出了相关挑战。

研究背景

想象一个场景:你让两个AI助手合作写一篇科普文章,一个负责介绍背景,一个负责讲解原理。结果呢?可能一个写得太简略,一个又过于冗长,风格完全不搭,甚至出现内容重复------这就是当前大型语言模型(LLM)协作时的常见问题。

近年来,LLM在各个领域大放异彩,但当需要多个LLM协同完成复杂任务(如联合写作、协作编码)时,却面临诸多挑战:

  • 现有方法要么让LLM在推理时通过提示词互动(比如"你补充一下我的观点"),但模型固定不变,很容易答非所问或传播错误信息;
  • 要么针对每个LLM单独微调,设计复杂的个体奖励(比如"这个LLM写得好就加分"),但奖励设计难度大,且多个LLM各自为战,缺乏全局协作意识。

而在机器人、游戏等领域,多智能体系统(MAS)早已通过强化学习实现了高效协作(比如多个机器人协同搬运物体)。受此启发,研究者们开始思考:能否将LLM协作也打造成一个"协作型团队",通过多智能体强化学习(MARL)让它们学会协同工作?这正是本文要解决的核心问题。

主要作者及单位信息

  • 作者:Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato*
  • 单位:Khoury College of Computer Sciences, Northeastern University(美国东北大学Khoury计算机学院)

创新点

本文的独特之处在于跳出了"个体优化"的思维,为LLM协作提供了全新框架:

  1. 问题建模革新 :首次将LLM协作明确建模为合作式多智能体强化学习问题 ,并通过Dec-POMDP(去中心化部分可观测马尔可夫决策过程) 形式化,让协作目标更清晰。
  2. 算法创新 :提出MAGRPO(Multi-Agent Group Relative Policy Optimization)算法,结合"集中式训练、去中心化执行"模式------训练时用全局信息优化协作策略,执行时每个LLM独立决策,兼顾效率与协作性。
  3. 奖励设计简化 :摒弃复杂的个体奖励,采用联合奖励 (比如"两篇摘要是否结构合理、风格一致"),让LLM自然学会分工协作,无需手动设计角色规则。

研究方法和思路

核心思路:把LLM协作变成"团队游戏"

  1. 问题形式化:用Dec-POMDP定义协作规则

    • 每个LLM是一个"智能体",接收自然语言提示(观测),生成文本或代码(动作)。
    • 环境根据所有LLM的联合输出更新状态(比如任务进度、用户反馈)。
    • 系统根据联合输出的质量给出联合奖励(比如写作任务中奖励"结构合理+风格一致",编码任务中奖励"代码可运行+功能互补")。
    • 目标是让所有LLM共同优化策略,最大化累计奖励(即"团队总分")。
  2. MAGRPO算法:让LLM学会"团队配合"

    • 步骤1:多轮交互:每个回合中,LLM们根据各自的历史(之前的提示和输出)同步生成响应。
    • 步骤2:群体采样:为了稳定训练,每个LLM生成多个候选响应(比如每个生成3个版本),形成"响应群体"。
    • 步骤3:计算奖励:系统根据联合响应的质量(如结构、一致性、正确性)给出联合奖励。
    • 步骤4:优化策略:通过"群体相对优势"(对比不同响应的奖励差异)更新每个LLM的策略,让它们逐渐学会"哪些输出能让团队得分更高"。
    • 特点:训练时用全局信息(所有LLM的输出和奖励)优化,执行时每个LLM仅根据自己的观测独立决策,既保证协作又不牺牲效率。

实验方法:在写作和编码任务中"实战测试"

  1. 写作协作任务

    • TLDR摘要生成:2个LLM分工,一个写精简摘要,一个写详细摘要,要求结构合理、风格一致。
    • arXiv论文扩展:2个LLM从论文摘要扩展引言,一个写背景,一个写方法,要求内容连贯。
    • 对比基线:单LLM、并行生成(无协作)、顺序生成(单向参考)、一轮讨论(双向参考)。
  2. 编码协作任务

    • HumanEval/CoopHumanEval:2个LLM分工写Python函数,一个写辅助函数,一个写主函数,要求代码可运行、功能互补。
    • 对比基线:单LLM、朴素拼接(无协作)、顺序生成(主函数参考辅助函数)、一轮讨论(互相参考)。
  3. 评估指标

    • 写作:结构(长度比)、风格一致性(词汇相似度)、逻辑连贯性(过渡词使用)。
    • 编码:结构完整性(函数定义正确)、语法正确性、测试通过率、协作质量(主函数是否有效调用辅助函数)。

主要贡献

  1. 理论层面:为LLM协作提供了坚实的数学框架(Dec-POMDP),证明了用MARL解决协作问题的可行性。
  2. 方法层面:MAGRPO算法无需复杂的个体奖励设计,仅通过联合奖励就能让LLM自主学会分工协作,降低了工程落地难度。
  3. 实践层面 :实验表明,MAGRPO在写作和编码任务中全面超越现有方法:
    • 写作任务:速度是单LLM的3倍,结构合理性和风格一致性得分超95%(基线最高71.5%)。
    • 编码任务:多轮MAGRPO的测试通过率达74.6%,协作质量达86.2%(单LLM分别为63.4%和无协作指标)。
  4. 领域价值:打开了MARL与LLM结合的新方向,为未来更复杂的多LLM协作(如大型软件开发、多步骤决策)奠定了基础。

思维导图:


详细总结:

1. 研究背景与动机
  • LLM与MAS的潜力:LLM在多领域表现优异,但协作能力未被充分优化;MAS在协作任务(如游戏、机器人)中已展现潜力,可用于提升LLM协作。
  • 现有方法的局限
    • 提示级交互(如辩论、角色分配):依赖固定模型,易产生冲突信息,提示设计困难。
    • 个体奖励微调:需为每个agent设计复杂奖励,且缺乏收敛保证。
2. 核心方法
  • 问题形式化:将LLM协作定义为Dec-POMDP,包含状态(全局状态含可访问部分和用户状态)、观测(自然语言提示)、动作(自然语言响应)、联合奖励(基于可访问状态和联合动作)等要素。
  • MAGRPO算法
    • 核心思路:借鉴GRPO和MAPPO,通过群体蒙特卡洛样本估计期望回报,计算群体相对优势以稳定训练。
    • 流程:每个episode中,agents同步生成响应,基于联合奖励更新历史,最终通过随机梯度下降优化策略。
3. 实验设计与结果
任务类型 数据集/任务 评估指标 关键结果(MAGRPO vs 基线)
写作协作 TLDR summarization 结构(长度比)、风格一致性(Jaccard相似度)、逻辑连贯性(过渡词) 速度是单模型3倍,结构和连贯性得分更高(98.7% vs 单模型6.6%)
写作协作 arXiv expansion 同上 总回报显著高于并行生成、顺序生成等基线(93.1% vs 并行59.6%)
编码协作 HumanEval 结构完整性、语法正确性、测试通过率、协作质量 多轮MAGRPO测试通过率74.6%,协作质量86.2%,优于单模型(63.4%)和朴素拼接(40.1%)
编码协作 CoopHumanEval 同上 单轮/多轮MAGRPO总回报(83.7%/88.1%)高于所有基线,且方差更低
4. 贡献与局限
  • 贡献
    1. 将LLM协作建模为合作式MARL问题;
    2. 提出MAGRPO算法优化协作;
    3. 验证其在写作和编码任务中的有效性;
    4. 分析现有方法局限和开放挑战。
  • 局限与未来方向
    • 局限:使用同质agent、数据集和模型规模有限、奖励模型简单;
    • 未来:探索异质agent协作、扩大项目规模、设计更精细的奖励模型。

关键问题:

  1. MAGRPO算法与现有多agent LLM协作方法的核心区别是什么?

    现有方法多依赖提示级交互(无微调)或个体/角色条件奖励微调,存在协作低效、奖励设计复杂、缺乏收敛保证等问题;而MAGRPO将LLM协作建模为合作式MARL问题,通过集中式群体相对优势进行联合优化,同时保留去中心化执行,无需复杂个体奖励设计,且有更好的协作效果和收敛性。

  2. 在写作协作实验中,评估LLM生成内容质量的具体指标有哪些?

    包括三类指标:(1)结构:两段摘要的长度比和独特词比;(2)风格一致性:基于独特词(或n-grams)的归一化Jaccard相似度;(3)逻辑连贯性:过渡词使用的类别数量(奖励随类别数对数增长)。总奖励为这些指标的加权和。

  3. 该研究指出的LLM协作领域开放挑战有哪些?

    主要包括:(1)LLM基于自然语言的表示形式对MARL建模的挑战(如动作/观测空间大);(2)训练范式选择(CTDE vs DTE)的权衡;(3)奖励模型的设计需更精细以对齐人类偏好;(4)需探索异质agent协作及更大规模项目中的协作模式。

总结

本文通过将LLM协作建模为合作式多智能体强化学习问题,提出了MAGRPO算法,成功解决了现有方法中"协作低效"和"奖励设计复杂"的痛点。实验证明,经过MAGRPO训练的LLM团队,在写作和编码任务中能生成更高质量的结果,且效率显著提升。

解决的主要问题

  • 现有LLM协作依赖提示词或个体奖励,协作性差、设计复杂。
  • LLM在多轮交互中难以保持风格一致、功能互补。

主要成果

  • 提出MAGRPO算法,实现LLM的高效协同训练。
  • 在写作和编码任务中验证了方法的优越性,为MARL在LLM领域的应用提供了范例。