Multi-Agent 概念&实现分享

Multi-Agent 学习背景

当下项目组在基于 Agent 思想在进行应用层服务开发,使用 LLM 能力为用户提供上层服务,目前市面上 Agent 框架越来越多, 其中最有名的当属 langchain。

原始文章 : lilianweng.github.io/posts/2023-...

国内翻译 : mp.weixin.qq.com/s/Jb8HBbaKY...

当我们对 Agent 使用有了一定理解和积累后, 我们发现 单一 Agent 总会有一些局限性, 我们为了让某个 Agent 更专业, 会设定他们的 Prompt, 基于这样的场景, 我们无法很好的去处理一些复杂的问题.

举个例子, 我们需要实现一个可以运行的数据分析项目, 要完成质量好的话, 我们就至少需要 开发&测试 这两个 Agent, 单一 Agent 则无法很好的实现多角色串用.

基于这个局限性, 前沿的实验室输出了很多 Multi-Agent 的设计论文, 基于这个部分, 目前也出现了很多全新的 Multi-Agent 框架, 例如 MetaGPT, AutoGen, XAgents 等, 当然 Multi-Agent 的框架帮支持我们处理一些复杂的问题, 但也一定程度带来了更多的成本.

A Survey on Large Language Model based Autonomous Agents

MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning

Multi-Agent 是什么

当要开始学习 Multi-Agent 后, 我们问了 ChatGPT, 什么是 Multi-Agent

以下是 ChatGPT 给我们的回答

"Multi Agent"(多智能体)是一个涉及到多个自主智能体(agents)的概念,这些智能体能够在某些环境中独立地或协作地工作。在计算机科学和人工智能领域,这通常指的是一群能够交互、协作、竞争或者彼此学习的智能体。这些智能体可能是软件(如虚拟机器人、算法或模型)或硬件(如机器人)。

多智能体系统(Multi-Agent Systems, MAS)具有以下特点:

  1. 自治性(Autonomy) :每个智能体都能够自主控制其行为和状态。
  2. 本地视角(Local Views) :每个智能体只能获得部分环境信息。
  3. 去中心化(Decentralization) :没有一个单一的控制智能体控制整个系统。
  4. 协作与竞争(Cooperation and Competition) :智能体可以相互合作以达成共同目标,也可以为了自己的利益与其他智能体竞争。

多智能体系统在多个领域都有应用,例如在自动化控制、社会模拟、资源管理和电子商务中。这些系统的设计和实现涉及到复杂的交互和协调机制,以及对智能体自身决策能力的研究。

目前 Multi-Agent 的目的是明确的(解决复杂问题), 但还没有出现一个行业标准的实现思想, 各家都是基于自己的论文思想设计出的 Multi-Agent 的实现

Multi-Agent 开源实现对比

资料 zhuanlan.zhihu.com/p/660045220

作品名称(出品方) 开源地址 特点
AutoGen (微软) github.com/microsoft/a... 支持人机交互, 多 Agent 并行协作
MetaGPT (深度赋智) github.com/geekan/Meta... 内置(互联网公司类)Agent, 可自定制更像产品级服务, 也开始支持人机介入
AgentVerse (面壁 & 清华) github.com/OpenBMB/Age... 自定义 Agent & 协作流程(配置), 由 AgentVerse 驱动
Agents (波形智能) github.com/aiwaves-cn/... 和 AgentVerse 概念类似, 但支持人类参与其中
XAgent github.com/OpenBMB/XAg... 内置的 Agent 协作流, 内置海量工具服务器

尝试总结各家实现的思路

基础要求

  • Agent 的输入和输出是在彼此之间流动或者共享的.
  • Agent 之间的协同是需要有规则驱动的
  • Agent 结束是有条件的
    • 最大执行轮数
    • 明确定义的终止消息

实现方向

  1. 用户可以自定义参与的Agent, 人类也可以是是一个 Agent (主流)
  2. 定义好 Agent 分工, 用户直接使用.

综合结论

  • 国内做的产品更类似为产品服务, 虽然核心概念都基本一致, 但产品使用上都有自己的定制化规则(配置解析器), 同时再适度捆绑下自己的产品"矩阵", 导致框架能力不强
  • AutoGen 从目前表现的极强扩展和定制能力, 有潜力成长为 Multi-Agent 的标杆性框架, 也是当下学习和实现的主要参考方向.

Multi-Agent 协作实现方向

从设计思想来说, 首先我们一定会聚合一批 Agent, 其次需要让这批 Agent 开始合理协作. 合理协作的实现方式目前有以下几种方向 : 前置, 规则, 后置.

利用 SOP 驱动 Agent - 代表 MetaGPT

MetaGPT 利用 几个核心概念来组成自己的协作流

  • Envrionment : Agent 观察&发布重要消息的公共存储空间

    • add_role 的时候, role 中去关联这个 Env
  • Observe : Agent 从 Env 中 观察到对自己重要的消息, 并开始思考和可能行动

  • Action : Agent 执行动作, 并发布消息到 Env 中.

docs.deepwisdom.ai/zhcn/guide/...

基于这样的基本设定, 用户可以自定义 Agent 所需要观察 Action 所产生的消息, 以及产生新的 Action 消息并发布出去, 基于此, 多个 Agent 之间就可以相互协作

LLM 前置选择 Agent - 代表 AutoGen

AutoGen GroupChat 提供了 auto(LLM 选择), manual(手动), random(随机), round_robin(轮询) 四种协作流程, 其默认为 auto

microsoft.github.io/autogen/doc...

其 auto 的实现原理为, GroupChat 会发起 LLM 问询, 其 Prompt 和 Message 设定为以下代码片段,

可以看出 GroupChat 会将自己假装为角色扮演游戏, 并按照历史消息和当前所有的 Agent 名称, 让 LLM 判断由哪个 Agent 进行下一位执行.

python 复制代码
# groupchat.py
	def select_speaker_msg(self, agents: List[Agent]):
        """Return the message for selecting the next speaker."""
        return f"""You are in a role play game. The following roles are available:
{self._participant_roles(agents)}.

Read the following conversation.
Then select the next role from {[agent.name for agent in agents]} to play. Only return the role."""


        # auto speaker selection
        selector.update_system_message(self.select_speaker_msg(agents))
        final, name = selector.generate_oai_reply(
            self.messages
            + [
                {
                    "role": "system",
                    "content": f"Read the above conversation. Then select the next role from {[agent.name for agent in agents]} to play. Only return the role.",
                }
            ]
        )

LLM 后置汇总执行结果, 并判断下一步 - 代表 XAgents

XAgents 利用了任务 规划, 分发, 执行, 提交, 修正 的链路, 利用 提交和修正 Agent 来完成后置汇总和判断下一步执行结果

www.bilibili.com/video/BV1BN...

额外扩展思考

看了目前主流的实现思路, 再回过来看我们真实生活中多人是如何协作, 是否现在我们的实现还有优化的空间.

前提 : 十几个人都在一个团队, 每个人或多或少都清楚别人干什么的

场景 : 问题到自己这里的时候, 会有两种情况

  1. 自己清楚这个问题该谁处理, 那就会直接找那个人去处理.
  2. 自己无法判断这个问题谁来处理, 那就会问所有人谁会处理或者问团队的负责人谁来处理

我们发现目前 Multi-Agent 的实现, 基本都是少数 Agent 能了解全局(所有 Agent), AutoGen 的 ChatGroupManger, XAgents 的 PlanAgent.

而如果 Agent 身份定义明确, 彼此之间能够相互了解, 并能思考问题谁来处理最合适, 那么就可以实现真正拟人的团队协作, 越了解彼此的团队, 协作越高效, 成本也就越低.

但似乎目前的 Agent(LLM) 注意力有限, 推理能力有限, 还无法形成一个发现彼此并自主驱动的现象.

Multi-Agent 自研设计思考

如果我们需要自己做一个 Multi-Agent 的框架实现, 我们可以拆解下, 我们至少需要实现哪些, 可选实现哪些.

必备要素(基础)

  1. Agent - 单一 Agent 的能力增强
  2. 团队 - 让一群 Agent(人) 知道周边有哪些 Agent(人)
  3. 协作 - 可定制化的协作流, 可以是 LLM, 可以是 flow
  4. 记忆 - 团队的协作数据流转需要有共享记忆存放

可选要素(完善)

提高执行效率和预期

  1. 单一 Agent 了解周边, 能自主驱动周边
  2. Agent 的并发执行
  3. 人机的调整输入, 支持反复修正.
  4. 长期有效记忆的保留.

数据(消息和记忆)的安全性

  1. 数据严格控制, 分享数据的脱敏以及可控分发

附录 - AutoGen 学习资料

AutoGen 介绍视频

Talk | PSU助理教授吴清云:AutoGen-用多智能体对话开启下一代大型语言模型应用_哔哩哔哩_bilibili 微软 AutoGen 更智能的多 AI Agents 协作框架 | 动画演示 框架核心 | Code 讲解 | Demo 演示_哔哩哔哩_bilibili

AutoGen 理论资料

AutoGen: Enabling next-generation large language model applications Multi-agent Conversation Framework

Auto 核心 Agent 的图谱

协作原理展示

Demo 学习

相关推荐
bastgia2 天前
Tokenformer: 下一代Transformer架构
人工智能·机器学习·llm
新智元2 天前
李飞飞谢赛宁:多模态 LLM「空间大脑」觉醒,惊现世界模型雏形!
人工智能·llm
RWKV元始智能3 天前
RWKV-7:极先进的大模型架构,长文本能力极强
人工智能·llm
zaim13 天前
计算机的错误计算(一百八十七)
人工智能·ai·大模型·llm·错误·正弦/sin·误差/error
张拭心3 天前
Google 提供的 Android 端上大模型组件:MediaPipe LLM 介绍
android·人工智能·llm
带电的小王3 天前
whisper.cpp: Android端测试 -- Android端手机部署音频大模型
android·智能手机·llm·whisper·音频大模型·whisper.cpp
带电的小王4 天前
whisper.cpp: PC端测试 -- 电脑端部署音频大模型
llm·whisper·音视频·音频大模型
Ambition_LAO4 天前
LLaMA-Factory QuickStart 流程详解
llm·llama
宇梵文书C4 天前
在CFFF云平台使用llama-factory部署及微调Qwen2.5-7B-Instruct
llm·llama·cfff
zaim14 天前
计算机的错误计算(一百八十六)
人工智能·python·ai·大模型·llm·误差·decimal