智能体的核心模式和架构

👏作者简介：大家好，我是爱吃芝士的土豆倪，24届校招生Java选手，入职小红书广告投放开发，很高兴认识大家

🔥如果感觉博主的文章还不错的话，请👍三连支持👍一下博主哦

🍂博主正在努力完成2025计划中：逆水行舟，不进则退

📝联系方式：nhs19990716，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬👀

最近越来越多的智能体技术问世，今天一个名词，明天一个框架，有没有被搞的晕头转向？

什么RAG、MCP、Manus，他们对于智能体的发展都意味着什么？

那么只需要了解，那个需要重点学习呢？

今天咱们就把这些智能体相关的技术一次性总结清楚，把他们分门别类，让你对智能体不再迷茫，准备好了吗？我们马上开始

首先任何一项技术都可以从道法术的角度去理解

道是最本质的东西，对于智能体就是它的基本组成和设计模式，然后就会有很多的框架去践行这些模式，最后基于这些框架和用户需求又会产生一批产品，如今繁荣的智能体生态就是这么来的。

所以先深入智能体的核心模式，再说到技术栈，顺便说一下经典的项目，最后从产品出，这样就能做到万变不离其宗。

我们先从智能体最精简的模式开始：

它包含三个部分：

感知、推理决策、行动

就像每天早上起床，感知闹钟响了（感知），决定要不要再睡五分钟（推理决策），最后决定：睡!（行动）

其中推理决策部分是智能体的核心，它通常由大模型来实现

现在主流的大模型基本上都有推理的能力，或者演绎或归纳；但是能力有限，所以一般需要智能体通过提示词进行增强。比如经典的COT方法（思维链）、角色赋予等，就好像你女朋友晚上叫正在打游戏的你去睡觉，只说："去睡觉"，是没用的，要增强，改成："再不睡我就。。。"你马上就屁颠屁颠的去了。

:::info

你的比喻非常生动，我来用更系统的方式解释一下"提示词"和它的增强逻辑：

1. 什么是提示词（Prompt）？

本质：是人与AI沟通的"密码本"，相当于给模型的导航指令
类比：就像你女朋友的"再不睡我就..."是专门针对你的有效沟通策略
作用：通过文字引导AI激活特定知识模块和推理路径

2. 为何简单指令常失效？

信息过载 ：大模型储存了海量知识，如同一个装满工具的万能工具箱
- 错误示范："写篇文章" → 相当于对工人说"干活吧"（不知用扳手还是键盘）
- 正确示范："用马克吐温风格写300字环保短文，包含海洋污染数据"
缺乏锚点 ：人类对话有大量默认语境，但AI需要显式设定
- 就像你女友说"再不睡"时，你们共享"熬夜会吵架"的隐含背景

3. 提示词增强的三大核心维度：

4. 你例子中的增强逻辑拆解：

原始版失效原因 ：
- 信息熵过高："去睡觉"有N种解读方式（关心/命令/开玩笑）
- 缺乏行为驱动力：未触发代价评估系统
增强版生效机制 ：
- 悬置威胁："再不睡我就..." 激活你的损失预判（游戏中断？吵架？）
- 关系锚定：基于情侣身份强化话语权重
- 模糊艺术：省略号促使大脑自主补全最坏结果（比明确威胁更有效）

5. 现实中的提示词设计技巧：

恐惧开关：对医疗AI提示"漏诊可能导致患者截肢..."
时间压力："必须在30秒内给出关键结论"
反事实引导："如果爱因斯坦来回答这个问题，他会..."
感官植入："用能让人闻到海水咸味的文字描述海洋"

这就像驯兽师用特定指令+奖励机制训练动物，提示词工程师其实在用语言塑造AI的思维轨迹。好的提示词，本质是给AI安装了一个临时的"认知义肢"。

:::

此外提示语还有一个重要的作用就是配合执行模式。这个一会再说。

感知部分负责接收外界指令，一般是文本形式，有些模型是多模态的，比如gpt-4o，所以也能接收图片或者语音等信息，而有些输入信息则必须经过预处理后，才能输入到模型，比如pdf格式，因此感知层诞生了很多优秀的信息加工类项目，比如MinerU：

就可以提取pdf中的文本、图片、表格等信息，在把这些信息输入到大模型中。

再比如最近比较火的Firecrawl：

就可以将爬取到的网页内容，直接转换成大模型能识别的文本信息。

经过感知层处理后的信息，经大模型决策，就会产生两种行动：一种是文本的答复，另一种就是对某个工具的调用，工具调用最先出现的是对搜索引擎和代码解释器的调用。通过搜索引擎可以将最新的信息输入到智能体中，而代码解释器则把模型的编码能力带给了智能体。

而后各种各样的api工具都开始引入到了智能体中

只要描述清楚这个API工具的作用和使用方法，模型决策后，智能体就可以调用执行了。

最近比较火的MCP（Model Context Protocol）其实就是给出了API工具接入智能体的标准化协议，只要按照这个协议接入的API工具，智能体都可以知道应该在何时、如何使用它，算是统一了智能体对所有API工具的调用标准。

接入动作层的还有一类接口，比如教大模型操作浏览器页面的 browser-use 或者操作电脑系统的open-interpreter，这些组件从人机交互接口入手，教大模型从人类视角操作浏览器或者操作系统。最近manus为什么这么火，就是因为它可以像人类一样理解和操作网页。

OpenAi在3月刚刚发布的web-search、file-search就是在补全这一块的能力，所以也可以这样理解，无论是给程序用的API接口，还是给人类用的带界面浏览器、操作系统，现在智能体都能接管了。

接下来智能体版图里面还有一块重要的组件就是知识库。

它也是发展最早最成熟的智能体组件

按照类型可以分为向量知识库、图知识库、关系型知识库和 kv型知识库。提供对智能体特定领域的知识，大名鼎鼎的RAG模式，就是文本输入 + 知识库检索 + 决策层组成的处理流水线。

现在我们把视角从智能体内部挪到智能体外部，很多情况下，智能体任务的执行不是一步就能完成的，这就涉及到单个智能体的多步骤执行和多智能体。

ReAct是一种最简单的多步骤执行模式，它分为Reason 和 Action。

智能体先接收外部输入，然后推理，采取行动改变环境；然后在观察变化-推理-采取新的行动，如此循环直至完成最终目标，但是这种模式有个缺陷：对于复杂任务，在循环若干步骤以后，常常会忘记最原始的目标是啥，也就是走着走着，突然想，我刚才干啥来着，所以又演化出另一种新的模式：

plan-Execute（计划 - 执行）

由一个总Agent，负责把一个复杂任务拆分成任务列表，并把控整体执行进度，然后由单个子Agent，负责每一个小任务的执行，最后由总Agent再把结果汇总，返回给用户。这个模式很像我们的职场，老板分配任务，牛马们干活像老板汇报，也是目前主流的多智能体执行模式，比如Manus就是这种执行模式。

这种执行模式还有很多变种，比如说允许牛马们执行过程中发现新任务并添加到老板的任务列表中，再比如老板们不止会拆分任务列表了，还能拆分出来任务树，甚至任务图，严格规定子任务间的依赖和执行顺序。

还有一种模式叫做 WorkForce（工作组）

我称之为创业团队模式，也就是多个agent之间没有明确的老板 - 牛马的划分，而是只有能力和角色的划分。

agent之间相互沟通组成一个团队，共同对外服务，之前介绍过得OpenAi的Swarm。就是专门针对这种模式设计的多智能体框架

多智能体的精髓不是单个模型的不同角色的设定，而是将不同能力特长的模型组合在一起，从而解决更复杂的问题，但是目前也面临着成本过高，交互复杂，失败率高等问题吧。所以没有万能的解决方案，只有更适合的对症下药。

以上三种就是目前主流的多步骤或者多智能体执行模式，为了支持这些模式，智能体内部又进化了计划模块，负责拆分任务、控制进度；以及记忆模块，用于在多个步骤之间传递状态，这两个模块在配合给模型的提示词，就形成了目前多种多样的执行模式。

此外个别智能体还会有自省模块，就是用于最后检查给用户的输出是否很好的完成了任务，如果哪里不合适就打回去重改，类似守门员这样的角色。

还有监控模块，用于监控整个任务执行过程，及时将阻塞反馈给用户

安全校准模块，对于大模型输出的一些幻觉，比如要毁灭人类啦，需要及时纠正。

我们再回到外部的执行模式上，刚才介绍的三种执行模式ReAct、Plan-Execute、WorkForce都是目标导向的，也就是以最终完成用户任务为目的的，中间的执行过程、经过多少步骤都是动态的、不确定的。

但是如果执行过程，步骤都能提前确定下来并固化下来的话，这就是工作流模式（WorkFlow）

因此工作流也可以看成执行模式中的一个特例，在面对某一类具体任务时，提前定义好工作流程，以及每个步骤都是那个智能体参与的，能使用那些工具，然后输入信息，拿到结果。整个过程清晰可控，工作流模式是目前最稳定的多智能体模式，因此各大智能体框架都争相实现，好了，到这里我们讲完了智能体的所有内部组件和外部模式。以后任它再怎么变，也逃不出这些基础元素了，而那些所谓的智能体框架，其实就是对其中某几个组件的封装或者实现。

比如langchain就是封装了所有对模型的访问和提示词控制

github上11k星的CAMEL，先是内置了一些执行模式，然后关键模块就是刚才讲的核心组件的封装。

28k星的crewAi，基于langchain和大模型的交互，实现了多智能体之间的灵活交互。

41k星的微软的autogen，除了多智能体交互，还实现了工作流定义。

69k星的n8n不仅支持图形化的工作流定义，还集成了400多种工具。

84k星的dify，工作流定义、模型访问封装、各种执行模式的支持还要免费开源。

而我们去年介绍的Coze，就是把这些框架再变成产品，直接提供在线服务。