1.简介
论文简介:
论文提出了一种称为混合智能体(Mixture-of-Agents,MoA)的方法,利用多个大语言模型(LLM)的集体智慧来提高自然语言理解和生成任务的性能。
- MoA采用了分层结构,每一层包含多个LLM智能体。每个智能体都将前一层所有智能体的输出作为辅助信息来生成自己的回答。通过迭代地综合和优化回答,MoA可以充分利用不同LLM的独特优势。
- 实验发现,即使其他模型提供的辅助回答质量较低,LLM也倾向于生成更好的回答,体现出LLM具有内在的协作性。MoA正是利用了这种协作性。
- 在AlpacaEval 2.0、MT-Bench和FLASK等基准测试中,MoA取得了目前最佳的性能,仅使用开源LLM就超过了GPT-4。例如在AlpacaEval 2.0上,MoA达到了65.1%的得分,而GPT-4 Omni为57.5%。
- 进一步的分析表明,MoA并非简单地从辅助回答中选择最佳答案,而是对它们进行了复杂的综合;使用更多不同的LLM作为提议者可以提高MoA的性能。
- 通过预算分析,MoA的几种实现可以达到与GPT-4 Turbo相当的性能,同时成本却降低了一半。
展示了如何通过混合智能体的框架来发挥多个LLM的协同效应,在提高性能的同时兼顾了计算成本,为后续研究指明了一个很有前景的方向。
2.MoA 的工作原理
MoA 采用了一种分层的架构,每一层都包含多个 LLM 代理。这些代理协同工作,共同处理输入并生成响应。MoA 的工作流程通常包括以下步骤:
- 输入处理: 将用户的输入发送给 MoA 的第一层。
- 分层处理: 每一层的 LLM 代理都会对输入进行处理,并生成中间结果。
- 结果聚合: 将每一层的中间结果进行聚合,生成最终的响应。
3.拉取ollama模型
ollama run llama3:instruct
ollama run mistral:instruct
ollama run phi3:instruct
4.git clone GitHub - win4r/MoA
5.修改项目里的配置文件.env
API_BASE=http://localhost:11434/v1
API_KEY=ollama
API_BASE_2=https://api.groq.com/openai/v1
API_KEY_2=aaa
MAX_TOKENS=4098
TEMPERATURE=0.7
ROUNDS=2
MODEL_AGGREGATE=llama3-70b-8192
MODEL_REFERENCE_1=llama3:latest
MODEL_REFERENCE_2=mistral:instruct
MODEL_REFERENCE_3=phi3:instruct
6.安装依赖
7.python bot.py