论文略读：If Multi-Agent Debate is the Answer, What is the Question?

UQI-LIUWJ2025-05-24 9:11

202502 arxiv

1 intro

多智能体辩论（Multi-Agent Debate, MAD）：通过让多个智能体在大模型推理时展开多轮辩论，可提升生成内容的事实准确性和推理质量
- 但论文认为，目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
  - 在 36 种实验配置（覆盖 9 个常见数据集与 4 种大模型）中，MAD 的胜率不足 20%。
------>论文提出Heter-MAD，通过简单引入异构模型智能体，无需修改现有 MAD 框架即可稳定提升性能（最高达 30%）

2 主要结论

选取了
- 5 种 具有代表性的 MAD 框架
  - SoM、MP、EoT、ChatEval 和 AgentVerse
- 9 个涵盖通用知识、数学推理和编程能力的基准数据集
- 4 个 基础模型
  - GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
- 两种baseline
  - Chain-of-Thought；self-consistency
- 评估指标
  - 性能、效率和鲁棒性

在 36 个测试场景中，MAD 方法仅在不到 20% 的情况下优于CoT，更别说SC了

MAD 方法消耗了更多的 token，但未能带来稳定的性能提升

增加智能体数量或辩论轮次并未显著改善 MAD 的表现

3 异构MAD效果

论文认为，人类协作成功的关键在于个体多样性
- 但现有 MAD 方法大多使用同一模型的多个实例进行评测，忽视了模型多样性可能带来的性能提升
------>提出了 Heter-MAD 方法：在MAD 框架中，每个 LLM 智能体随机从异构模型池中选择模型生成答案
- 无需改变现有 MAD 框架结构，却能显著且稳定地提升性能

上一篇：数据库系统概论（九）SQL连接查询语言超详细讲解（附带例题，表格详细讲解对比带你一步步掌握）

下一篇：linux 内核warn_on/Bug_on

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？102026 年 AI 大模型 & AI 编程工具实战全总结