极智AI | 更好地理解大模型Agent

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享

大家好，我是极智视界，本文来介绍一下更好地理解大模型Agent。

邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：t.zsxq.com/0aiNxERDq

先从一个咱们的文心一言的例子开场，比如我问文心 "杭州今天的天气怎么样"，对话如下，

然后我打开手机的天气软件，如下，

发现文心的回答确实是准确的，这是否会对我们对于大模型的传统认知产生冲击呢。之前一般会认为大模型的认知能力会停留在某个时间点 (喂训练数据的时间点) 之前，比如 ChatGPT-3 的知识停留在 2021 年 9 月，所以在我们的认知里，它们是不应该知道更加新的知识的。真的是大模型又变强了在打我们的脸吗，真的是它现在能够学习到实时的知识了吗？答案可能并不是那么单纯，要很好地解释这个话题，就需要引出咱们这里的 Agent。

继续问文心，"大模型Agent是怎么样的概念"，回答如下，

我同时也在 Bing 上检索了同样的话题，

以上的检索和我理解的概念也是大差不差的，我这边解释会更加详细和形象一些。

再举个具体的例子，我差不多在今年四月份写过一篇文章《HuggingGPT让ChatGPT联网》，那时候其实对于 Agent 的概念还比较模糊。现在回过头来想想，HuggingGPT 其实本身就是一个 Agent。HuggingGPT 以语言大模型作为一个 "轴" / "核心" / "调度单元" ，来调用其他 HuggingFace 中大模型的能力来实现用户需求，而语言大模型本身其实只是用来理解用户输入、拆分任务和协调分配任务的，不参与具体任务的执行。

经过上面的讨论，应该基本能够了解 Agent 到底是什么。Agent 其实基本就等于 "大模型 + 插件 + 执行流程 / 思维链"，分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节，如下，

对于控制端 Brain 来说，就是 Agent 最为核心的地方，也是我们通俗理解的 LLM 语言大模型所处的位置。还是拿文心回答天气的例子来说，文心一言这个产品中最为核心的肯定是文心大模型，文心大模型所处的位置就是文心一言这个产品或者说这个 Agent 的 Brain，它主要用来理解用户输入，拆分任务、协调分配。具体到这个话题，会先把任务进行拆分，会把 "杭州今天的天气怎么样" 拆分为 (1) "杭州今天的日期是什么"、(2) "杭州在这个日期的天气情况怎么样"，然后就会协调调用获取时间和获取天气预报的 API (Plugin) 来分布完成以上的子任务。整个流程就走了一遍 Brain -> Perception -> Action 的完整 Agent 工程流程。

对于一个 Agent 来说，Perception 感知端是 AI 能力扩展很重要的环节，也是前面说的 HuggingGPT 能够实现联网的原因所在。在 Perception 感知端，可以调用如视觉感知、语言感知、听觉感知、多模态感知等，而这些 "乱七八糟" 的 AI 能力通常不是 LLM 大模型直接提供的，LLM 大模型只做自己擅长的输入理解和任务管理就好了。

当然，比较流行的 Agent 项目也有挺多，比如 AutoGPT、BabyAGI、上面的 HugingGPT、LLAMAIndex 等等，这几个项目都是打的非常响亮的。

在 Bing 的检索中，也有把 Agent 称为 AI 智能体的，这个叫法其实是比较形象的。确实，Agent 更像一个智能体，有 LLM 大脑，有决策能力，有记忆能力，有利用工具的能力，这么看跟咱们的行为不是差不多嘛，太科幻了。

好了，以上分享了更好地理解大模型Agent，希望我的分享能对你的学习有一点帮助。

【公众号传送】

《极智AI | 更好地理解大模型Agent》

畅享人工智能的科技魅力，让好玩的AI项目不难玩。邀请您加入我的知识星球， 星球内我精心整备了大量好玩的AI项目，皆以工程源码形式开放使用，涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助，但一定非常好玩，并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq