Multi-Agent 概念&实现分享

Multi-Agent 学习背景

当下项目组在基于 Agent 思想在进行应用层服务开发，使用 LLM 能力为用户提供上层服务，目前市面上 Agent 框架越来越多, 其中最有名的当属 langchain。

原始文章 : lilianweng.github.io/posts/2023-...

国内翻译 : mp.weixin.qq.com/s/Jb8HBbaKY...

当我们对 Agent 使用有了一定理解和积累后, 我们发现单一 Agent 总会有一些局限性, 我们为了让某个 Agent 更专业, 会设定他们的 Prompt, 基于这样的场景, 我们无法很好的去处理一些复杂的问题.

举个例子, 我们需要实现一个可以运行的数据分析项目, 要完成质量好的话, 我们就至少需要开发&测试这两个 Agent, 单一 Agent 则无法很好的实现多角色串用.

基于这个局限性, 前沿的实验室输出了很多 Multi-Agent 的设计论文, 基于这个部分, 目前也出现了很多全新的 Multi-Agent 框架, 例如 MetaGPT, AutoGen, XAgents 等, 当然 Multi-Agent 的框架帮支持我们处理一些复杂的问题, 但也一定程度带来了更多的成本.

A Survey on Large Language Model based Autonomous Agents

MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning

Multi-Agent 是什么

当要开始学习 Multi-Agent 后, 我们问了 ChatGPT, 什么是 Multi-Agent

以下是 ChatGPT 给我们的回答

"Multi Agent"（多智能体）是一个涉及到多个自主智能体（agents）的概念，这些智能体能够在某些环境中独立地或协作地工作。在计算机科学和人工智能领域，这通常指的是一群能够交互、协作、竞争或者彼此学习的智能体。这些智能体可能是软件（如虚拟机器人、算法或模型）或硬件（如机器人）。

多智能体系统（Multi-Agent Systems, MAS）具有以下特点：

自治性（Autonomy） ：每个智能体都能够自主控制其行为和状态。

本地视角（Local Views） ：每个智能体只能获得部分环境信息。

去中心化（Decentralization） ：没有一个单一的控制智能体控制整个系统。

协作与竞争（Cooperation and Competition） ：智能体可以相互合作以达成共同目标，也可以为了自己的利益与其他智能体竞争。

多智能体系统在多个领域都有应用，例如在自动化控制、社会模拟、资源管理和电子商务中。这些系统的设计和实现涉及到复杂的交互和协调机制，以及对智能体自身决策能力的研究。

目前 Multi-Agent 的目的是明确的(解决复杂问题), 但还没有出现一个行业标准的实现思想, 各家都是基于自己的论文思想设计出的 Multi-Agent 的实现

Multi-Agent 开源实现对比

资料 zhuanlan.zhihu.com/p/660045220

作品名称(出品方)	开源地址	特点
AutoGen (微软)	github.com/microsoft/a...	支持人机交互, 多 Agent 并行协作
MetaGPT (深度赋智)	github.com/geekan/Meta...	内置(互联网公司类)Agent, 可自定制更像产品级服务, 也开始支持人机介入
AgentVerse (面壁 & 清华)	github.com/OpenBMB/Age...	自定义 Agent & 协作流程(配置), 由 AgentVerse 驱动
Agents (波形智能)	github.com/aiwaves-cn/...	和 AgentVerse 概念类似, 但支持人类参与其中
XAgent	github.com/OpenBMB/XAg...	内置的 Agent 协作流, 内置海量工具服务器

尝试总结各家实现的思路

基础要求

Agent 的输入和输出是在彼此之间流动或者共享的.
Agent 之间的协同是需要有规则驱动的
Agent 结束是有条件的
- 最大执行轮数
- 明确定义的终止消息

实现方向

用户可以自定义参与的Agent, 人类也可以是是一个 Agent (主流)
定义好 Agent 分工, 用户直接使用.

综合结论

国内做的产品更类似为产品服务, 虽然核心概念都基本一致, 但产品使用上都有自己的定制化规则(配置解析器), 同时再适度捆绑下自己的产品"矩阵", 导致框架能力不强
AutoGen 从目前表现的极强扩展和定制能力, 有潜力成长为 Multi-Agent 的标杆性框架, 也是当下学习和实现的主要参考方向.

Multi-Agent 协作实现方向

从设计思想来说, 首先我们一定会聚合一批 Agent, 其次需要让这批 Agent 开始合理协作. 合理协作的实现方式目前有以下几种方向 : 前置, 规则, 后置.

利用 SOP 驱动 Agent - 代表 MetaGPT

MetaGPT 利用几个核心概念来组成自己的协作流

Envrionment : Agent 观察&发布重要消息的公共存储空间
- add_role 的时候, role 中去关联这个 Env
Observe : Agent 从 Env 中观察到对自己重要的消息, 并开始思考和可能行动
Action : Agent 执行动作, 并发布消息到 Env 中.

docs.deepwisdom.ai/zhcn/guide/...

基于这样的基本设定, 用户可以自定义 Agent 所需要观察 Action 所产生的消息, 以及产生新的 Action 消息并发布出去, 基于此, 多个 Agent 之间就可以相互协作

LLM 前置选择 Agent - 代表 AutoGen

AutoGen GroupChat 提供了 auto(LLM 选择), manual(手动), random(随机), round_robin(轮询) 四种协作流程, 其默认为 auto

microsoft.github.io/autogen/doc...

其 auto 的实现原理为, GroupChat 会发起 LLM 问询, 其 Prompt 和 Message 设定为以下代码片段,

可以看出 GroupChat 会将自己假装为角色扮演游戏, 并按照历史消息和当前所有的 Agent 名称, 让 LLM 判断由哪个 Agent 进行下一位执行.

python 复制代码

# groupchat.py
	def select_speaker_msg(self, agents: List[Agent]):
        """Return the message for selecting the next speaker."""
        return f"""You are in a role play game. The following roles are available:
{self._participant_roles(agents)}.

Read the following conversation.
Then select the next role from {[agent.name for agent in agents]} to play. Only return the role."""


        # auto speaker selection
        selector.update_system_message(self.select_speaker_msg(agents))
        final, name = selector.generate_oai_reply(
            self.messages
            + [
                {
                    "role": "system",
                    "content": f"Read the above conversation. Then select the next role from {[agent.name for agent in agents]} to play. Only return the role.",
                }
            ]
        )