欢迎关注我的公众号 [极智视界],获取我的更多经验分享
大家好,我是极智视界,本文来介绍一下 更好地理解大模型Agent。
邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq
先从一个咱们的文心一言的例子开场,比如我问文心 "杭州今天的天气怎么样",对话如下,
然后我打开手机的天气软件,如下,
发现文心的回答确实是准确的,这是否会对我们对于大模型的传统认知产生冲击呢。之前一般会认为大模型的认知能力会停留在某个时间点 (喂训练数据的时间点) 之前,比如 ChatGPT-3 的知识停留在 2021 年 9 月,所以在我们的认知里,它们是不应该知道更加新的知识的。真的是大模型又变强了在打我们的脸吗,真的是它现在能够学习到实时的知识了吗?答案可能并不是那么单纯,要很好地解释这个话题,就需要引出咱们这里的 Agent。
继续问文心,"大模型Agent是怎么样的概念",回答如下,
我同时也在 Bing 上检索了同样的话题,
以上的检索和我理解的概念也是大差不差的,我这边解释会更加详细和形象一些。
再举个具体的例子,我差不多在今年四月份写过一篇文章《HuggingGPT让ChatGPT联网》,那时候其实对于 Agent 的概念还比较模糊。现在回过头来想想,HuggingGPT 其实本身就是一个 Agent。HuggingGPT 以语言大模型作为一个 "轴" / "核心" / "调度单元" ,来调用其他 HuggingFace 中大模型的能力来实现用户需求,而语言大模型本身其实只是用来理解用户输入、拆分任务和协调分配任务的,不参与具体任务的执行。
经过上面的讨论,应该基本能够了解 Agent 到底是什么。Agent 其实基本就等于 "大模型 + 插件 + 执行流程 / 思维链",分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节,如下,
对于控制端 Brain 来说,就是 Agent 最为核心的地方,也是我们通俗理解的 LLM 语言大模型所处的位置。还是拿文心回答天气的例子来说,文心一言这个产品中最为核心的肯定是文心大模型,文心大模型所处的位置就是文心一言这个产品或者说这个 Agent 的 Brain,它主要用来理解用户输入,拆分任务、协调分配。具体到这个话题,会先把任务进行拆分,会把 "杭州今天的天气怎么样" 拆分为 (1) "杭州今天的日期是什么"、(2) "杭州在这个日期的天气情况怎么样",然后就会协调调用获取时间和获取天气预报的 API (Plugin) 来分布完成以上的子任务。整个流程就走了一遍 Brain -> Perception -> Action 的完整 Agent 工程流程。
对于一个 Agent 来说,Perception 感知端是 AI 能力扩展很重要的环节,也是前面说的 HuggingGPT 能够实现联网的原因所在。在 Perception 感知端,可以调用如视觉感知、语言感知、听觉感知、多模态感知等,而这些 "乱七八糟" 的 AI 能力通常不是 LLM 大模型直接提供的,LLM 大模型只做自己擅长的输入理解和任务管理就好了。
当然,比较流行的 Agent 项目也有挺多,比如 AutoGPT、BabyAGI、上面的 HugingGPT、LLAMAIndex 等等,这几个项目都是打的非常响亮的。
在 Bing 的检索中,也有把 Agent 称为 AI 智能体的,这个叫法其实是比较形象的。确实,Agent 更像一个智能体,有 LLM 大脑,有决策能力,有记忆能力,有利用工具的能力,这么看跟咱们的行为不是差不多嘛,太科幻了。
好了,以上分享了 更好地理解大模型Agent,希望我的分享能对你的学习有一点帮助。
【公众号传送】
畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助,但一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq