202502 arxiv
1 intro
- 多智能体辩论(Multi-Agent Debate, MAD):通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量
- 但论文认为,目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
- 在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%。
- 但论文认为,目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
- ------>论文提出Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%)
2 主要结论
- 选取了
- 5 种 具有代表性的 MAD 框架
- SoM、MP、EoT、ChatEval 和 AgentVerse
- 9 个涵盖通用知识、数学推理和编程能力的基准数据集
- 4 个 基础模型
- GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
- 两种baseline
- Chain-of-Thought;self-consistency
- 评估指标
- 性能、效率和鲁棒性
- 5 种 具有代表性的 MAD 框架

- 在 36 个测试场景中,MAD 方法仅在不到 20% 的情况下优于CoT,更别说SC了

- MAD 方法消耗了更多的 token,但未能带来稳定的性能提升

- 增加智能体数量或辩论轮次并未显著改善 MAD 的表现
3 异构MAD效果
- 论文认为,人类协作成功的关键在于个体多样性
- 但现有 MAD 方法大多使用同一模型的多个实例进行评测,忽视了模型多样性可能带来的性能提升
- ------>提出了 Heter-MAD 方法:在MAD 框架中,每个 LLM 智能体随机从异构模型池中选择模型生成答案
- 无需改变现有 MAD 框架结构,却能显著且稳定地提升性能