论文略读:If Multi-Agent Debate is the Answer, What is the Question?

202502 arxiv

1 intro

  • 多智能体辩论(Multi-Agent Debate, MAD):通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量
    • 但论文认为,目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
      • 在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%
  • ------>论文提出Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%)

2 主要结论

  • 选取了
    • 5 种 具有代表性的 MAD 框架
      • SoM、MP、EoT、ChatEval 和 AgentVerse
    • 9 个涵盖通用知识、数学推理和编程能力的基准数据集
    • 4 个 基础模型
      • GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
    • 两种baseline
      • Chain-of-Thought;self-consistency
    • 评估指标
      • 性能、效率和鲁棒性
  • 在 36 个测试场景中,MAD 方法仅在不到 20% 的情况下优于CoT,更别说SC了
  • MAD 方法消耗了更多的 token,但未能带来稳定的性能提升
  • 增加智能体数量或辩论轮次并未显著改善 MAD 的表现

3 异构MAD效果

  • 论文认为,人类协作成功的关键在于个体多样性
    • 但现有 MAD 方法大多使用同一模型的多个实例进行评测,忽视了模型多样性可能带来的性能提升
  • ------>提出了 Heter-MAD 方法:在MAD 框架中,每个 LLM 智能体随机从异构模型池中选择模型生成答案
    • 无需改变现有 MAD 框架结构,却能显著且稳定地提升性能
相关推荐
d111111111d20 小时前
STM32编码电机闭环PID调节教程。
笔记·stm32·单片机·嵌入式硬件·学习·面试
其美杰布-富贵-李20 小时前
TSTabFusionTransformer 深度学习学习笔记
笔记·深度学习·学习
蒙奇D索大20 小时前
【数据结构】考研408 | 开放定址法精讲:连续探测的艺术与代价
数据结构·笔记·考研·改行学it
深蓝海拓20 小时前
PySide6从0开始学习的笔记(八) 控件(Widget)之QSlider(滑动条)
笔记·python·qt·学习·pyqt
m0_6501082420 小时前
DSGN:基于深度立体几何网络的 3D 目标检测革新
论文阅读·3d目标检测·立体视觉·3d几何体积表示·端到端联合优化·dsgn
TL滕20 小时前
从0开始学算法——第十九天(并查集练习)
笔记·学习·算法
im_AMBER20 小时前
Leetcode 80 统计一个数组中好对子的数目
数据结构·c++·笔记·学习·算法·leetcode
KaDa_Duck20 小时前
DASCTF 2025下半年赛 PWN-CV_Manager复盘笔记
linux·笔记·安全
千殇华来21 小时前
XMOS学习笔记
人工智能·笔记·学习
m0_6501082421 小时前
FlashLightNet:实时检测与分类静态和闪烁交通灯状态的端到端深度学习框架
论文阅读·自动驾驶·视觉单模态·交通灯状态检测·flashlightnet