【文献笔记】Mixture-of-Agents Enhances Large Language Model Capabilities

Mixture-of-Agents Enhances Large Language Model Capabilities

混合代理增强大语言模型能力

信息

作者: Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
单位: Together AI
日期: 2024年6月

1. 概述

1.1. 背景

近年来，大语言模型（LLMs）的性能提升主要依赖两个路径：一是模型规模的持续扩大，二是高质量数据与指令微调。然而，这两条路径都面临显著的边际成本递增问题：更大的模型意味着更高的训练与部署成本，而单一模型在不同任务维度上的能力往往并不均衡。作者从一个经验性但被忽视的现象出发提出核心问题：当多个能力互补的 LLM 同时可用时，是否可以通过结构化协作，而非进一步扩模，来系统性提升输出质量？

论文首先在 AlpacaEval 2.0 上观察到一个关键经验现象：一个模型在"阅读并参考其他模型给出的答案"后，往往能够生成质量更高的回答；更重要的是，这种提升并不要求参考答案来自更强的模型，即便来自性能较弱的模型也能产生正向增益。作者将这一现象概括为 collaborativeness（可协作性），并通过多模型互相参考的实验结果加以验证（见图 1）。

这一观察直接挑战了"只需选择最强单模型"的常见隐含假设，也为后续方法设计奠定了经验基础：模型之间的交互本身是一种可被系统利用的能力来源。

1.2. 目标 & 贡献

在上述动机下，论文的研究目标并非提出一个新的基础模型，而是回答一个更偏系统与方法论的问题：如何在不进行任何模型训练或微调的前提下，最大化多个现有 LLM 的集体能力？

围绕这一目标，论文的主要贡献可以概括为三点：

提出了一个无需微调、只靠提示词和多次生成即可运行的 Mixture-of-Agents（MoA） 框架：把多个 LLM 当作"智能体（agents）"进行分层协作，通过迭代，综合提升最终输出质量。
把"collaborativeness"作为一个可被利用的普遍现象提出，并进一步把多模型协作中的角色分解为 proposer（提案者）与 aggregator（聚合者），用实验说明不同模型在这两种角色上可能呈现明显专长差异。
在 AlpacaEval 2.0、MT-Bench 与 FLASK 等基准上做了系统评测，给出"纯开源模型 MoA"也能超过当时的 GPT-4 Omni 的结果，并报告了不同配置（MoA、MoA-Lite、MoA w/ GPT-4o）的性能与代价权衡。

2. 研究方法 -- Mixture-of-Agents（MoA）框架

2.1. proposer 与 aggregator

MoA 的方法设计建立在一个明确的功能分工假设之上：

Proposer（提案者） 的任务是为同一输入问题生成具有互补性的候选答案，它们不要求本身最优，但应提供多角度信息、不同推理路径或补充事实；
Aggregator（聚合者） 的任务不是选择其中"最好的一条"，而是在阅读多条候选答案后进行批判性综合，生成一个新的、更优的答案。

这一分工的核心思想是：协作收益来自"多样性供给 + 强综合能力"的组合，而非所有参与者都必须同样强。

2.2. MoA分层结构与形式化定义

MoA 采用一个具有 层（layers） 与 宽度（agents per layer） 的分层结构。设系统一共有 l l l 层，每一层包含 n n n 个 agent，记为 A i , 1 , ... , A i , n A_{i,1},\dots,A_{i,n} Ai,1,...,Ai,n。每个 agent 对应一次对某个 LLM 的调用，同一模型可以在不同层或同一层内重复使用。

MoA 的计算流程可形式化为递推关系： y i = ⨁ j = 1 n [ A i , j ( x i ) ] + x 1 , x i + 1 = y i y_i = \bigoplus_{j=1}^{n} [A_{i,j}(x_i)] + x_1,\quad x_{i+1} = y_i yi=⨁j=1n[Ai,j(xi)]+x1,xi+1=yi 其中：

x 1 x_1 x1 为原始用户输入；
A i , j ( x i ) A_{i,j}(x_i) Ai,j(xi) 为第 i i i 层第 j j j 个 agent 对当前输入的回答；
⊕ \oplus ⊕ 表示通过一个固定的 Aggregate-and-Synthesize 提示词对多条回答进行综合；
输出 y i y_i yi 作为下一层的输入。

作者还提出一个直觉但很关键的进一步增强思路：既然"一个 aggregator 看多份 proposer 输出能提升"，那就让"多个 aggregator 先分别综合一次"，再把这些"已综合的答案"继续交给下一层 aggregator 再综合，形成迭代式的综合与精炼。

即从第二层开始，每个 agent 的输入都包含：原始问题 + 前一层生成的多条回答 。因此 MoA 的后续层本质上是在执行"阅读---理解---重写"任务，而非从零生成答案。结构上的信息流动见图 2。

最终系统仅输出最后一层某个 agent（通常是 aggregator）的结果作为最终答案，而不对中间结果进行额外选择或加权。

2.3. 聚合提示词

表 1 给出了 MoA 中用于综合的标准化提示词模板。该提示词明确要求 aggregator：

对输入答案进行批判性评估；
识别潜在错误、偏见或不完整之处；
生成一个更准确、更全面、更有结构的新答案，而不是复制或拼接原文。

2.4. 与 Mixture-of-Experts（MoE）的关系

作者将 MoA 类比为一种"模型级别"的 MoE。传统 MoE 在网络内部通过 gating network 对 expert 加权，而 MoA 则将 expert 提升为完整模型，并用 LLM 对提示词的理解隐式完成"门控与综合"。其优势在于无需访问模型内部结构、无需训练，可直接组合任意现有模型。

3. 实验

3.1. 实验设置

评估基准

AlpacaEval 2.0：开放式指令，无标准答案。AlpacaEval 使用长度控制胜率（尽量消除"长度本身带来的偏好增益"）以 GPT-4-1106-preview 为评估参考；
MT-Bench：多轮对话，无标准答案，由 GPT-4 打分；
FLASK：评估模型对开放式指令生成的完整自然语言回答，提供 12 个细粒度能力维度评分

模型：作者的默认 MoA（开源版本）使用 6 个开源模型作为 proposer 组合：Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1、dbrx-instruct，并构建 3 层 MoA，每层使用同一组模型；最后一层的 aggregator 默认用 Qwen1.5-110B-Chat。

另外还有两种关键变体：MoA w/ GPT-4o（把最终 aggregator 换成 GPT-4o 追求更高质量）以及 MoA-Lite（2 层、用 Qwen1.5-72B-Chat 做最终 aggregator，强调性价比）。

3.2. 主要结果

AlpacaEval 2.0 ：表 2(a) 给出 AlpacaEval 2.0 的结果：MoA（纯开源）LC win rate 达到 65.1%，而 GPT-4 Omni（05/13）为 57.5%；MoA w/ GPT-4o 为 65.7%，MoA-Lite 也有 59.3%。论文还强调 MoA 相比 GPT-4o（此处以表中 GPT-4 Omni 57.5% 对照）具有显著的绝对提升，并且即便减少层数做成 Lite，也仍能在成本更低的条件下取得超过对照模型的胜率。
MT-Bench：表2(b)，MoA w/ GPT-4o 平均 9.40，MoA 为 9.25，MoA-Lite 为 9.18，与 GPT-4 Turbo、GPT-4 Preview、GPT-4 Omni 等强模型非常接近。作者解释 MT-Bench 已经"天花板很高"，单模型能到 9+，因此增益看起来更小，但 MoA 仍能取得榜首或接近榜首的表现。
FLASK：图3 显示 MoA 在 factuality、robustness、insightfulness 等维度显著提升，但在 conciseness 上略有劣势（更啰嗦）。

3.3. 消融 -- 是什么让MoA效果好?

论文用两组实验把 MoA 与"LLM ranker（只挑不写）"区分开来。

第一，作者构造一个 LLM-ranker 基线：让 aggregator 只在 proposer 的候选答案中挑选"最好的一份"，而不是生成新的综合回答；结果在图 4 中显示 MoA 明显优于 ranker，这支持了一个重要结论：MoA 的提升并非来自"更会选"，而是来自"更会综合重写"。

第二，作者分析 aggregator 输出与 proposer 输出的相似性：用 BLEU 等文本相似度衡量 aggregator 更接近哪一份 proposer 输出，再计算"相似度排序"和"偏好得分排序"之间的 Spearman 相关。图 4(b) 显示这种相关性为正，意味着 aggregator 倾向于吸收更高质量 proposer 的内容；附录还用 TF-IDF、Levenshtein 做了类似验证（见图 6）。从另一个角度解释aggregator 的"综合"在做什么：不是盲目平均，而是更像"提取强要点并重新组织"。

3.3.1. 宽度（n）与多样性的作用

表 3 专门研究 proposer 数量 n 的影响，同时对比"多模型 proposer（multiple-proposer）"与"同模型多次采样（single-proposer）"。当 n 从 1 增加到 6，multiple-proposer 的 LC win rate 从 47.8% 提升到 61.3%；并且在同样 n 下，多模型 proposer 一直优于单模型多次采样（例如 n=6 时 61.3% vs 56.7%）。 -- 增加 proposer 数量（宽度）可显著提升性能；使用不同模型作为 proposer 比同一模型多次采样更有效。

表 4 则揭示"模型角色专长"：同一个模型做 aggregator 与做 proposer 的效果可能完全不同。例如 LLaMA-3-70B-Instruct 作为 proposer 得分 60.6%，但作为 aggregator 只有 45.0%；WizardLM 8x22B 作为 proposer 63.8%，作为 aggregator 52.9%。

3.4. 案例

aggregator的综合到底是怎么做的：

表 6 展示当 proposer 中存在高质量答案时，aggregator 会在保留自身强项的同时吸纳其他模型的关键点，最终偏好分数可达到与最佳 proposer 相同的 0.99

表 7 展示当所有 proposer 都不够好时，aggregator 仍能从多个不完美回答里抽取强点，使最终偏好分数提升到 0.33

论文还在 MATH 数据集上验证 MoA 对推理类任务同样适用，并给出不同 aggregator 在 1--3 层下准确率提升的表格结果（见表 8）

4. 结论、限制与未来方向

结论：MoA 通过"多模型提案 + 分层综合"的方式，能够系统性提升最终输出质量，并在多个主流基准上取得显著增益，验证了"整合多模型多样视角能优于单模型"的核心假设；此外作者认为 MoA 架构本身仍有大量可优化空间，特别是如何系统化地搜索最优的层数、宽度与模型组合。

限制：作者明确指出 MoA 的一个结构性代价：由于需要先完成多轮生成与聚合，系统在到达最后一层之前无法输出第一个 token，从而导致 Time To First Token（TTFT）可能显著变长，影响交互体验。

他们给出的缓解思路包括：限制层数（因为第一次聚合往往带来最大质量提升），以及探索 chunk-wise aggregation（分块聚合）------不必等整段回答都生成完再聚合，而是按片段逐步聚合，以在尽量保持质量的同时降低 TTFT。

未来方向：

"架构搜索问题"：把 MoA 的层数、每层 agent 数、模型复用方式、以及聚合提示词模板视为设计变量，进行系统优化
"协作机制解释与可控性"：既然不同模型在 proposer/aggregator 角色上有明显专长，就可以进一步研究如何自动识别并路由角色分配、如何度量多样性贡献、以及如何避免聚合时的错误放大。
"面向部署的实时性改造"：围绕 TTFT、并行调度与分块聚合做工程与算法共同设计，使 MoA 不只是在离线评测里强，也能在真实对话系统中可用。