上篇文章我们跑起来了第一个MetaGPT程序。本文主要学习了一下理论,什么是智能体,以及智能体如何重构世界。
0. 什么是智能体
智能体 = LLM+观察+思考+行动+记忆
多智能体 = 智能体+环境+SOP+评审+路由+订阅+经济
用人话说,我理解的Agent:
- 智能体就是像人一样,能理解现实中的事务,有记忆,会思考,会总结,会学习,像人一样会规划,会决策,会使用各种工具来完成某项任务。
- 多智能体,就像一个团队,大了说像我们现在生活的社会,每个智能体有自己的职能和领域,人与人之间通过协作,能完成更加复杂和庞大的目标。
太理论的东西这里不展开写了,可以参考文末的链接去深入理解。下面只是摘我觉得比较有意思的几个点做一下笔记:
(1)目前LLM规划能力较弱
(2)人脑有大量如视神经、听觉神经等小网络;智能体大概率也需要大量的小模型(如在视觉、决策、路由等工作上),不能由一个大模型来主导,一不经济,二不实际 。
(3)工具实际就是API,支撑了智能体通往现实世界。假如实现现实世界完整表达的API都已经被实现,那么Agent理论上就可以达到全能。当然,前提是它要能够无错、娴熟的基于这些API写出完整的代码,而这代码自动撰写的missing piece就是MetaGPT
1. 用一个例子看智能体是什么
这是一个GPTs导航,帮助用户用LLM的模糊语义搜索找到全网公开的GPTS以及其体验链接。问它:"logo设计",这个GPTs的任务就是查找logo设计相关的GPTs,并列出排名、介绍和访问链接。
从图中可以看到它的具体执行步骤:
(1)观察和思考:首先结构用户描述,产生搜索用的英文关键字
(2)工具:利用英文关键字,调用webpilot工具API进行检索
(3)观察和思考:根据返回的检索结果,llm就开始观察和思考哪个是最高匹配度的GPTs
(4)返回结果
从这些步骤就可以看出里面也是包含了规划在的。
2. AI时代智能体怎样重构世界
(1)Agent:LLM时代的新软件
99%的互联网入口将由App变为智能体:人类感知的字节数降低到极限
- 我的理解:99%的APP都不再是APP,而是一堆API。手机上只有一个Agent智能体软件作为入口,你想要什么,它去调用一堆API来给你结果。
(2)社会协作变革:虚拟员工进入企业,红杉预计 智能体数量 五年后和人类1比1
3. 有趣的理论:大脑的System1和System2
-
该理论意思就是:当简单问题时,我们大脑只用System1工作,例如被问"2 + 2 = ?",我们能脱口而出,没经过思考。而被问"17 * 24 = ?",我们的大脑就需要计算了,这就需要用到System2 - 你的大脑的另一部分,这部分更加理性,更加缓慢,进行复杂的决策,感觉更有意识。你不得不在脑海中解决这个问题,然后给出答案。
-
现在事实证明, LLM 目前只有系统 1。它们只有这个本能部分。