【AI的未来 - AI Agent系列】【MetaGPT】1. AI Agent如何重构世界

上篇文章我们跑起来了第一个MetaGPT程序。本文主要学习了一下理论，什么是智能体，以及智能体如何重构世界。

智能体 = LLM+观察+思考+行动+记忆

多智能体 = 智能体+环境+SOP+评审+路由+订阅+经济

用人话说，我理解的Agent：

太理论的东西这里不展开写了，可以参考文末的链接去深入理解。下面只是摘我觉得比较有意思的几个点做一下笔记：

（1）目前LLM规划能力较弱

（2）人脑有大量如视神经、听觉神经等小网络；智能体大概率也需要大量的小模型（如在视觉、决策、路由等工作上），不能由一个大模型来主导，一不经济，二不实际 。

（3）工具实际就是API，支撑了智能体通往现实世界。假如实现现实世界完整表达的API都已经被实现，那么Agent理论上就可以达到全能。当然，前提是它要能够无错、娴熟的基于这些API写出完整的代码，而这代码自动撰写的missing piece就是MetaGPT

这是一个GPTs导航，帮助用户用LLM的模糊语义搜索找到全网公开的GPTS以及其体验链接。问它："logo设计"，这个GPTs的任务就是查找logo设计相关的GPTs，并列出排名、介绍和访问链接。

从图中可以看到它的具体执行步骤：

（1）观察和思考：首先结构用户描述，产生搜索用的英文关键字

（2）工具：利用英文关键字，调用webpilot工具API进行检索

（3）观察和思考：根据返回的检索结果，llm就开始观察和思考哪个是最高匹配度的GPTs

（4）返回结果

从这些步骤就可以看出里面也是包含了规划在的。

99%的互联网入口将由App变为智能体：人类感知的字节数降低到极限

该理论意思就是：当简单问题时，我们大脑只用System1工作，例如被问"2 + 2 = ?"，我们能脱口而出，没经过思考。而被问"17 * 24 = ?"，我们的大脑就需要计算了，这就需要用到System2 - 你的大脑的另一部分，这部分更加理性，更加缓慢，进行复杂的决策，感觉更有意识。你不得不在脑海中解决这个问题，然后给出答案。
现在事实证明， LLM 目前只有系统 1。它们只有这个本能部分。