MAS-PromptBench：提示词优化何时能提升多智能体大模型系统性能？

论文基础信息

论文arxiv链接：https://arxiv.org/html/2606.23664v1
开源项目主页：https://juyangbai.github.io/MAS-PromptBench/
开源代码仓库：https://github.com/juyangbai/MAS-PromptBench
作者：白居阳（约翰霍普金斯大学）、施来熙（约翰霍普金斯大学）
单位：约翰霍普金斯大学电气与计算机工程系
提交时间：2026年6月22日
许可证：arXiv永久非独占许可

摘要

基于大语言模型的多智能体系统（MAS）是智能体AI可规模化落地的核心方案，系统内每个智能体配置独立系统提示词，并遵循特定工作流完成智能体间协同与结果聚合。系统提示词是低成本、易落地的优化切入点：仅通过调整提示词定义智能体角色与行为，无需对基础大模型微调即可实现系统性能提升。

单智能体场景下提示词优化已被验证具备显著增益，但拓展至多智能体系统会产生全新挑战：智能体间提示词存在依赖关系，多轮交互带来的协同逻辑会让搜索空间随智能体数量指数级扩张。目前学界仍缺少系统性研究：提示词优化能否提升多智能体性能、在何种配置下生效、性能提升幅度，以及优化收益对系统配置的敏感程度均无统一结论。

本文针对多样化多智能体配置（任务类型、工作流拓扑、通信协议、智能体团队规模）开展系统性系统提示词优化实验，基于两种成熟单智能体提示词优化算法拓展出多智能体版本并完成基准测试。实验证明提示词优化最高可带来24个百分点的性能提升，但部分场景下也会造成最高16个百分点的性能衰减。本文完整刻画了不同多智能体配置下提示词优化的收益边界与失效场景，为后续多智能体提示词优化算法、多智能体系统工程设计提供完整实验依据。

1 引言

1.1 智能体AI发展现状

以基础大模型为核心的智能体AI可自主完成任务规划、工具调用、现实交互，正在重塑产业、科研与日常生活。当任务从单人规模升级为组织级复杂、开放、强时效需求时，单智能体架构会出现三大瓶颈：知识广度受限、上下文长度不足、串行执行效率低下。

多智能体系统（MAS）成为下一代通用智能体、通用超级人工智能的主流范式，依靠分工专业化、多模态协同、任务拆分并行、交叉校验四大优势，解决单智能体短板。标准多智能体架构由调度器统一管理通信、任务分配、结果聚合，每个智能体搭载专属指令集与协同工作流。本文将智能体指令集统一命名为系统提示词。

1.2 系统提示词的优化价值

系统提示词是多智能体系统最易操作的优化抓手：

无需改动底层大模型权重，无微调成本；
多数企业落地场景受安全、合规、可审计约束，无法修改工作流拓扑，仅能调整提示词；
直接定义智能体角色、输出规范、协同逻辑，决定整套系统的行为边界。

单智能体场景下自动提示词优化已有大量成熟研究，效果稳定，但相关结论无法直接迁移至多智能体场景。

1.3 多智能体提示词优化的独有难题

指数级搜索空间：每个智能体提示词相互耦合，智能体数量越多，组合搜索空间爆炸式增长；
协同动态干扰：多轮对话中智能体输出相互影响，局部提示词优化收益可能被上下游交互抵消；
效果两极分化：同一种优化算法，在不同任务、拓扑下效果差异极大，性能可大幅提升也可严重下跌（如图1）。

现有主流多智能体框架（AutoGen、CrewAI、CAMEL、MetaGPT、ChatDev、AgentVerse）全部依赖人工手写提示词。近期少量研究开始做多智能体自动提示词优化，但存在数据集、系统配置、基线不统一的问题，无法横向对比，遗留核心问题：

提示词优化对多智能体系统的提升上限是多少？提升效果如何随系统配置变化？

1.4 本文核心贡献

构建MAS-PromptBench多智能体提示词优化基准测试集
覆盖多领域任务、5类工作流拓扑、3种通信协议、4档智能体规模，内置两套主流优化器，支持可控变量实验，统一对比各类提示词优化算法。
量化多智能体提示词优化的收益与失效场景
基于MAS-GEPA（单智能体GEPA多智能体拓展版）完成全量实验：最优场景性能提升24.0个百分点，最差场景衰减16.0个百分点，证明现有算法存在明显适配短板。
总结提示词优化生效的边界条件
- 任务具备可显式拆解、可局部校验行为时优化收益更高（代码、工具调用 > 纯推理任务）；
- 结构化通信协议可稳定放大优化收益；
- 优化算法必须感知工作流拓扑；
- 智能体团队规模越大，提示词优化难度越高、平均收益越低。

2 相关工作

2.1 单大模型提示词优化

提示词优化分为离散文本系统提示词、连续嵌入软提示词两类，本文聚焦可解释、工程落地性更强的系统提示词。现有方法分为三类：

采样生成类：基于任务反馈生成、筛选候选提示词，代表：APE、OPRO、PromptAgent、EvoPrompt、PromptBreeder；
反馈梯度类：利用强化学习奖励、文本梯度、自我反思生成优化方向，代表：RLPrompt、TextGrad、Reflexion；
编辑微调类 ：增删改写原始提示词局部语句，代表：GRIPS；
同时DSPy框架集成MIPROv2等算法，支持多阶段流水线指令优化。

现有工作仅针对单智能体，未探究优化收益在多智能体协同场景下的迁移性，本文填补该空白。

2.2 多智能体系统提示词优化

主流多智能体框架均依赖人工提示词定义角色、对话规则、协作模式（辩论、共识聚合等）。近年自动提示词优化研究分为两类：

仅优化提示词：基于任务失败样例、单智能体/全局协同反馈迭代提示词；
联合优化：提示词+工作流拓扑、分层规划协同优化。

现有研究未控制变量对比不同系统配置下的优化收益，本文固定多智能体架构，仅改变提示词，量化优化天花板。

2.3 多智能体与提示词优化基准测试

现有基准分为三类：

任务基准：MultiAgentBench（协同能力）、BFCL（工具调用）、SWE-bench（代码修复）、GAIA（通用助手）；
诊断工具：MAST（故障分类）、AGDebugger（交互调试），用于定位多智能体失败原因；
系统配置研究：探究拓扑、智能体多样性、团队规模对性能的影响。

目前不存在专门面向多智能体提示词优化的标准化基准，本文提出MAS-PromptBench填补该空白。

3 多智能体大模型系统提示词优化理论定义

3.1 多智能体系统数学建模

多智能体系统定义三元组 M=(A, G, P)\mathcal{M}=(\mathcal{A},\,G,\,P)M=(A,G,P)：

A={A1,...,An}\mathcal{A}=\{A_{1},\dots,A_{n}\}A={A1,...,An}：nnn 个有序智能体集合；单个智能体 Ai=(θi,πi)A_{i}=(\theta_{i},\pi_{i})Ai=(θi,πi)，θi\theta_iθi 为大模型参数（固定不微调），πi\pi_iπi 为可优化系统提示词；全部智能体联合提示词记为 π={π1,...,πn}\pi=\{\pi_{1},\dots,\pi_{n}\}π={π1,...,πn}；
GGG：智能体协同工作流拓扑图；
PPP：智能体间通信协议。

任务输入元组 (x,e)∼T(x,e)\sim\mathcal{T}(x,e)∼T：xxx 任务输入，eee 标准答案/测试用例评估参考。M(x;π)\mathcal{M}(x;\pi)M(x;π) 代表给定联合提示词 π\piπ 时多智能体系统输出。

3.2 多智能体提示词优化目标函数

max⁡π E(x,e)∼T ⁣ $μ ,(M(x;π),e)$ s.t. ℓrollouts≤B \max_{\pi}\;\mathbb{E}{(x,e)\sim\mathcal{T}}\!\left $\\mu\\!\\left(\\mathcal{M}(x;\\pi),e\\right)\\right$ \quad\text{s.t.}\;\;\ell{\mathsf{rollouts}}\leq B πmaxE(x,e)∼T $μ(M(x;π),e)$ s.t.ℓrollouts≤B

μ\muμ：性能指标，输出与标准答案匹配度，取值 $0,1$ $0,1$ $0,1$ ；
ℓrollouts\ell_{\mathsf{rollouts}}ℓrollouts：系统执行轮次，BBB 为最大迭代预算（约束算力消耗）。

3.3 系统提示词层级说明

文中"系统提示词"为指令集统称，包含四层分层指令（本文统一优化全部指令层，分层优化留作未来工作）：

顶层系统规则：安全规范、工具调用全局约束；
开发层指令：智能体角色、工作流分工；
项目层规范：代码标准、任务流程；
技能指令：数据分析、代码修改等复用能力（本文不优化）。

3.4 提示词优化收益量化指标

定义优化增益 Δ(T,G,n,P)\Delta(\mathcal{T},G,n,P)Δ(T,G,n,P)，对比优化前后系统平均性能差值：

Δ(T,G,n,P) := E(x,m)∼T ⁣ $μ ,(M(x;π⋆),y) - μ ,(M(x;π0),y)$ \Delta(\mathcal{T},G,n,P)\;:=\;\mathbb{E}_{(x,m)\sim\mathcal{T}}\!\bigl $\\mu\\!\\left(\\mathcal{M}(x;\\pi\^{\\star}),y\\right)\\;-\\;\\mu\\!\\left(\\mathcal{M}(x;\\pi\^{0}),y\\right)\\bigr$ Δ(T,G,n,P):=E(x,m)∼T $μ(M(x;π⋆),y)-μ(M(x;π0),y)$

π0\pi^{0}π0：初始化原始提示词；
π⋆\pi^{\star}π⋆：优化后最优提示词；
增益 Δ>0\Delta>0Δ>0：优化提升性能；Δ<0\Delta<0Δ<0：优化造成性能衰减。

4 MAS-PromptBench：多智能体提示词优化基准测试集

4.1 基准模块化配置总览

维度	可选配置	详细说明
底层框架	4种	LangGraph、CrewAI、AutoGen、OpenAI Agents SDK
任务数据集	9个（3大类）	推理：GPQA-Diamond、HotpotQA、MATH 代码：LiveCodeBench、APPS、SWE-Bench Verified 工具调用：BFCL、ToolHop、API-Bank
工作流拓扑	5种	单智能体（基线）、独立并行、串行、中心化、去中心化
通信协议	3种	自由文本、半结构化标签、JSON全结构化
智能体团队规模	4档	n∈{2,4,8,10}n\in\{2,4,8,10\}n∈{2,4,8,10}
内置优化器	2种	MAS-GEPA（GEPA多智能体拓展）、MAS-MIPRO（MIPRO多智能体拓展）

4.2 基准核心能力

单一变量控制实验：固定其余所有配置，仅修改任务/拓扑/通信/团队规模，隔离单一变量对优化收益的影响；
统一评估标准：每个数据集使用官方原生评估指标；
高度可扩展：支持新增任务、拓扑、通信协议、提示词优化算法；
标准化对比流程 ：统一对比原始提示词、优化后提示词的性能差值 Δ\DeltaΔ。

5 多智能体提示词优化实证实验

实验主体优化器：MAS-GEPA；消融实验补充MAS-MIPRO验证结论普适性。

5.1 任务类型对优化收益的影响

实验结论

收益排序：工具调用任务（平均+4.3pct）> 代码任务（平均+3.7pct）> 纯推理任务（平均+1.3pct）；
单任务最高增益：BFCL串行拓扑+24.0pct、APPS串行拓扑+18.0pct；
推理任务短板：中间逻辑无标准化可校验产物，局部提示词优化收益易被上下游交互覆盖、抵消。

底层逻辑

代码、工具调用具备可显式、可校验、可隔离的局部行为：代码可通过编译、测试用例验证；工具调用拥有固定API格式，局部优化效果可稳定传递至下游智能体。纯推理依赖隐式逻辑推导，中间信息无标准化载体，优化收益极易丢失。

5.2 工作流拓扑对优化收益的影响

5类拓扑定义：

单智能体：基线，无多智能体协同；平均优化增益+4.2pct，高于所有多智能体拓扑；
独立并行拓扑：智能体无互相通信，并行计算后聚合结果；易出现提示词优化相互抵消，MATH数据集衰减-16.0pct；
串行拓扑 ：智能体链式传递输出 A1→A2→⋯→AnA_1\to A_2\to\dots\to A_nA1→A2→⋯→An；局部优化可逐层传递，但长链误差会累积；
中心化拓扑：调度器统一分发子任务、汇总结果，工人智能体无交互；优化效果两极分化，收益与衰减幅度均放大；
去中心化拓扑：全连接智能体自由多轮对话，最后聚合输出；整体平均优化收益最高，但算力开销最大。

核心结论

多智能体提示词优化必须拓扑感知，不存在通用适配所有拓扑的优化算法；独立并行拓扑风险最高，易出现性能倒退。

5.3 通信协议结构化程度对优化的影响

三类通信协议：

自由文本协议：无固定格式，纯自然语言对话；平均优化增益+1.6pct；
半结构化协议：固定标签槽位（ $状态$ 、 $证据$ 、 $置信度$ ），槽内为自然语言；平均增益+2.4pct；
全结构化JSON协议：固定字段+枚举约束，标准化消息；平均增益+4.3pct。

结构化协议统一信息载体，降低下游智能体信息提取成本，局部提示词优化的改进可稳定在多轮交互中传递，多跳问答任务（HotpotQA）收益提升最明显。

5.4 智能体团队规模的影响

团队规模 n=2/4/8/10n=2/4/8/10n=2/4/8/10 实验结果：

n=2：平均增益+2.4pct；
n=4：平均增益+0.6pct；
n=8：平均增益-0.9pct；
n=10：平均增益-2.1pct。

规律总结

智能体数量越大，协同开销越高，局部提示词优化收益越容易在多层交互中稀释、抵消；中心化拓扑受规模负面影响最严重，去中心化拓扑容错性更强。

5.5 优化器消融实验（MAS-MIPRO）

更换另一套主流优化器MAS-MIPRO重复通信协议实验，趋势与MAS-GEPA完全一致：

自由文本(+0.1) < 半结构化(+4.8) < 全结构化(+6.3)。

证明本文实验结论并非单一优化器特有，是多智能体系统本身的固有特性。

6 结论

系统提示词优化是低成本提升多智能体性能的有效手段，最优场景提升24个百分点，但配置不适配时最高衰减16个百分点；
提示词优化生效的有利条件：
- 任务具备可校验、标准化局部输出（代码/工具调用优于纯推理）；
- 采用结构化智能体通信协议；
- 小规模智能体团队；
- 优化算法感知工作流拓扑结构；
未来算法设计方向：拓扑感知、规模自适应、结构化通信适配的多智能体专属提示词优化器；
本文局限：仅验证GEPA、MIPRO两类优化器，后续需拓展更多优化算法验证结论。

附录A 基准完整细节

A.1 四大底层多智能体框架介绍

LangGraph：图式状态智能体框架，精准控制消息流转路由，用于实现串行、分支、循环拓扑；
CrewAI：角色驱动多智能体框架，侧重分工、任务委派，适配分层协同实验；
AutoGen：对话式智能体框架，支持辩论、反思、工具调用，用于高交互场景；
OpenAI Agents SDK：工业级生产框架，原生支持任务移交、链路追踪，贴近真实工程落地。

A.2 9个任务数据集评测标准

推理类

GPQA-Diamond：研究生难度多选科学题，指标：答案匹配准确率；
HotpotQA：多跳维基问答，指标：标准化精确匹配EM；
MATH：竞赛级数学题，指标：最终答案数学等价准确率。

代码类

LiveCodeBench：无数据污染编程竞赛题，指标：全部隐藏用例通过率pass@1；
APPS：入门/面试/竞赛编程题，指标：全用例通过率pass@1；
SWE-bench Verified：真实GitHub代码修复任务，指标：补丁解决issue通过率。

工具调用类

BFCL：函数调用匹配，指标：AST抽象语法树匹配正确率；
ToolHop：多工具链式调用，指标：最终答案准确率；
API-Bank：交互式API调用，指标：接口+参数匹配正确率。

A.3 三类通信协议完整示例（HotpotQA任务）

任务问题：Scott Derrickson与Ed Wood国籍是否相同？标准答案：是

自由文本

研究员：我查询了两人信息。Scott Derrickson是美国导演，出生于科罗拉多州丹佛；Ed Wood是美国电影人，出生于纽约波基普西。二人都是美国人，国籍一致，答案为是。
半结构化标签格式

[STATUS] 任务完成
[SUMMARY] 两人均为美国人，国籍相同
[EVIDENCE_OR_TESTS]
• Scott Derrickson（维基）：美国导演，科罗拉多州丹佛出生
• Ed Wood（维基）：美国电影人，纽约波基普西出生
[CONFIDENCE] 高
[NEXT] 移交输出智能体生成最终答案
[ENTITIES] Scott Derrickson, Ed Wood
[HOPS] 查询1国籍、查询2国籍、对比国籍
[ANSWER_CANDIDATE] 是
JSON结构化格式

json 复制代码

{
    "status": "completed",
    "summary": "Both individuals are American, so they share the same nationality.",
    "confidence": "high",
    "next": "Hand off to the writer to emit the final yes/no answer.",
    "payload": {
        "entities": ["Scott Derrickson", "Ed Wood"],
        "hops": [
            "Find Scott Derrickson's nationality",
            "Find Ed Wood's nationality",
            "Compare the two"
        ],
        "evidence": [
            {
                "source": "Scott Derrickson (Wikipedia)",
                "fact": "American director, born in Denver, Colorado"
            },
            {
                "source": "Ed Wood (Wikipedia)",
                "fact": "American filmmaker, born in Poughkeepsie, New York"
            }
        ],
        "answer_candidate": "yes"
    }
}

A.4 两套多智能体提示词优化器实现细节

1. MAS-GEPA（GEPA多智能体拓展）

原始GEPA为单智能体反射式提示词进化算法，多智能体改造逻辑：

每个智能体独立维护专属候选提示词池；
轮序优化：固定其余所有智能体提示词，单次仅迭代1个智能体；
输入反射模型信息：单智能体执行轨迹、全局交互上下文、团队最终任务得分、文本失败反馈；
训练/验证拆分：每个数据集-拓扑组合25条训练样本、25条验证样本；
停止条件：连续5轮验证集无性能提升终止；
保守筛选策略：优化后提示词验证集性能低于原始则回退原始提示词。

2. MAS-MIPRO（MIPRO多智能体拓展）

原始MIPRO面向多阶段LLM流水线，适配多智能体改造：

将每个智能体视作独立可优化模块，仅优化系统提示词，不改动协同逻辑；
每个智能体生成3组指令候选、3组少量示例集；
全局端到端任务得分作为优化反馈信号；
训练、验证拆分、优化后筛选策略与MAS-GEPA完全统一。

A.5 实验使用模型完整配置

参数项	任务执行模型	优化反射模型
模型ID	Qwen/Qwen3.5-9B	Qwen/Qwen3.5-122B-A10B-FP8
温度temperature	0.2	1.0
Top-p	0.9	1.0
随机种子Seed	0	未设置
最大输出token	32768	48000
内置思考模式	关闭（保证实验可复现）	开启

附录B 提示词原始样例与优化后样例

B.1 元提示词模板

用于自动生成各拓扑、任务下智能体初始种子提示词，输入包含：任务名称、评估指标、工作流拓扑、通信协议、智能体在工作流中的位置。

B.2 三组场景原始/优化提示词对比

HotPotQA 独立并行拓扑：求解智能体原始系统提示词 & 优化后提示词；
SWE代码修复中心化拓扑：调度管理者、检索开发、补丁编写、测试四类智能体原始/优化提示词；
BFCL工具调用独立并行拓扑：调用智能体原始提示词 & 优化后提示词。

参考文献

（原文完整参考文献列表保留，包含所有引用论文、框架、数据集官方文档）

资源下载链接汇总

论文原文：https://arxiv.org/html/2606.23664v1
项目主页（实验可视化、数据集说明）：https://juyangbai.github.io/MAS-PromptBench/
完整开源代码（基准框架、优化器实现、实验脚本）：https://github.com/juyangbai/MAS-PromptBench