
本博客内容适合具备一定开发经验、已经在工作中接触过较多业务场景的开发者。对于初入社会的学生或没有开发基础的朋友,不建议阅读本篇博文。
本博客也是作者自身对学习和使用 AI Agent 相关开发知识的一个总结,部分观点可能与当前主流认知存在差异,这些差异均来源于实际开发过程中的经验积累,仅供参考与探讨。
本博客内容均来自于开源项目 hello-agents 学习,希望大家在学习途中可以给 https://github.com/datawhalechina/hello-agents 项目点点 star。
初始智能体
-
- [1. 什么是智能体?什么是 AI Agent?](#1. 什么是智能体?什么是 AI Agent?)
-
- 智能体的本质:一个自主系统
- 一个经典示例:无人驾驶
- [1. 感知(Perception)](#1. 感知(Perception))
- [2. 决策(Decision-Making)](#2. 决策(Decision-Making))
- [3. 执行(Action)](#3. 执行(Action))
- [智能体的完整循环:感知 → 决策 → 执行](#智能体的完整循环:感知 → 决策 → 执行)
- 传统视角下的智能体演进
-
- [反射智能体(Simple Reflex Agent)](#反射智能体(Simple Reflex Agent))
- [基于模型的反射智能体(Model-Based Reflex Agent)](#基于模型的反射智能体(Model-Based Reflex Agent))
- [基于目标的智能体(Goal-Based Agent)](#基于目标的智能体(Goal-Based Agent))
- [基于效用的智能体(Utility-Based Agent)](#基于效用的智能体(Utility-Based Agent))
- [学习型智能体(Learning Agent)](#学习型智能体(Learning Agent))
- [什么是 AI 智能体?](#什么是 AI 智能体?)
-
- [LLM 智能体的三大核心能力](#LLM 智能体的三大核心能力)
- [AI 在智能体中的角色](#AI 在智能体中的角色)
- 智能体的关键特性
- 现实世界中的智能体示例
- [AI Agent 与传统智能体的区别](#AI Agent 与传统智能体的区别)
- 智能体的发展历程
- 智能体的应用价值
- 总结
- [2. 智能体类型](#2. 智能体类型)
-
- [2.1 基于内部决策架构的分类](#2.1 基于内部决策架构的分类)
- [2.2 基于时间与反应性的分类](#2.2 基于时间与反应性的分类)
-
- [反应式智能体(Reactive Agents)](#反应式智能体(Reactive Agents))
- [规划式智能体(Deliberative Agents)](#规划式智能体(Deliberative Agents))
- [混合式智能体(Hybrid Agents)](#混合式智能体(Hybrid Agents))
- [2.3 基于知识表示的分类](#2.3 基于知识表示的分类)
-
- [符号主义 AI(Symbolic AI)](#符号主义 AI(Symbolic AI))
- [亚符号主义 AI(Sub-symbolic AI)](#亚符号主义 AI(Sub-symbolic AI))
- [神经符号主义 AI(Neuro-Symbolic AI)](#神经符号主义 AI(Neuro-Symbolic AI))
- [3. 智能体的构成与运行原理](#3. 智能体的构成与运行原理)
-
- [3.1 任务环境与 PEAS 模型](#3.1 任务环境与 PEAS 模型)
- [3.2 智能体循环(Agent Loop)](#3.2 智能体循环(Agent Loop))
- [3.3 Thought-Action-Observation 交互协议](#3.3 Thought-Action-Observation 交互协议)
- [4. Workflow 与 Agent 的差异](#4. Workflow 与 Agent 的差异)
- [5. 本章小结](#5. 本章小结)
1. 什么是智能体?什么是 AI Agent?
这其实是一个很好的问题。一些人对智能体的理解仅限于"加入 AI 后,能通过 AI 感知周围环境,做出判断并执行操作"。这个理解本身没有问题,但对于智能体而言,AI 并非核心,AI 只是恰好放大了智能体"智能"的手段。
智能体的本质:一个自主系统
智能体(Agent)本质上是一个能够感知环境、进行决策并执行行动以实现特定目标的自主系统。这个概念源于人工智能和计算机科学领域,但它的思想早已渗透到我们生活的方方面面。
为了更好地理解智能体的概念,我们可以从几个不同角度来审视:
| 视角 | 核心观点 |
|---|---|
| 系统架构角度 | 智能体是一个完整的闭环控制系统,包含输入(感知)、处理(决策)和输出(执行)三个基本模块,与经典的"感知-思考-行动"循环(Perception-Thinking-Action Loop)高度一致 |
| 行为学角度 | 智能体表现出目标导向的行为,能够根据环境变化调整策略,展现出一定程度的"智能"或适应性 |
| 工程实现角度 | 智能体是一个软件或硬件实体,封装了特定的功能逻辑,能够独立或协作完成复杂任务 |
这个定义包含了智能体存在的四个基本要素:
| 要素 | 说明 | 示例 |
|---|---|---|
| 环境(Environment) | 智能体所处的外部世界 | 道路交通、金融市场、互联网 |
| 传感器(Sensors) | 感知环境状态的输入通道 | 摄像头、雷达、API 数据流 |
| 执行器(Actuators) | 对环境施加影响的输出通道 | 方向盘、机械臂、代码执行 |
| 自主性(Autonomy) | 基于感知和内部状态独立决策的能力 | 区别于被动执行预设指令的程序 |
一个经典示例:无人驾驶
在 2023 年以前,GPT 还没有问世的时候,无人驾驶就已经出现了。无人驾驶用一句话来概括就是:根据实时路况进行驾驶判断,操作车辆以预期的方式行驶。无人驾驶的运行方式如下:

那么,无人驾驶是智能体的具现实现吗?
答案:是。
根据上图就可以总结出来,智能体就是一个能够感知环境、进行决策并执行行动以实现特定目标的自主系统。这个定义包含三个核心要素:
1. 感知(Perception)
智能体通过传感器、API 接口或用户输入等方式获取环境信息。感知系统是智能体的"眼睛和耳朵",负责收集原始数据并将其转化为可理解的信息。
在无人驾驶的例子中,感知包括:
| 感知类型 | 具体方式 | 说明 |
|---|---|---|
| 视觉感知 | 摄像头 | 捕捉道路、交通标志、行人、车辆等视觉信息 |
| 距离感知 | 雷达 / 激光雷达(LiDAR) | 探测周围物体的精确距离和速度 |
| 位置感知 | GPS | 获取车辆的精确位置和导航信息 |
| 环境感知 | 交通数据服务 | 接收实时路况、天气状况、道路施工等信息 |
| 内部状态感知 | 车载传感器 | 监测车辆自身的速度、油量、轮胎压力等数据 |
感知的挑战:现实世界的信息往往是多模态的、不完整的、有噪声的。智能体的感知系统需要具备:
- 数据融合能力:将来自不同传感器的信息整合成一致的环境模型
- 噪声过滤能力:识别并排除错误或无关的信息
- 实时处理能力:在有限时间内完成信息处理,满足系统响应要求
2. 决策(Decision-Making)
基于感知到的信息,智能体进行分析、推理和规划,决定下一步行动。决策过程是智能体的"大脑",体现了系统的智能水平。
决策过程可能涉及:
| 决策方式 | 说明 | 典型应用 |
|---|---|---|
| 规则引擎 | 基于预设规则进行判断 | "红灯停、绿灯行"、"与前车保持安全距离" |
| 机器学习模型 | 识别模式、预测结果 | 预测其他车辆的行驶轨迹 |
| 大语言模型(LLM) | 理解自然语言指令、进行复杂推理 | 生成创造性解决方案 |
| 优化算法 | 寻找最优路径或方案 | 最短路径规划 |
| 博弈论策略 | 在多智能体环境中做出最优决策 | 多车博弈场景 |
决策的层次:
| 层次 | 特点 | 示例 |
|---|---|---|
| 反应式决策 | 对环境变化做出即时反应 | 紧急刹车 |
| 规划式决策 | 基于当前状态和目标制定行动计划 | 路径规划 |
| 学习式决策 | 从经验中学习,改进未来的决策质量 | 根据历史驾驶数据优化策略 |
3. 执行(Action)
将决策转化为实际的操作,影响环境或完成任务。执行系统是智能体的"手和脚",负责将抽象决策转化为具体行动。
| 应用场景 | 执行方式 | 说明 |
|---|---|---|
| 无人驾驶 | 控制方向盘、油门、刹车、转向灯等执行器 | 精确操控车辆 |
| 聊天机器人 | 生成回复消息、调用工具 API、执行数据库查询 | 信息输出与工具调用 |
| 工业机器人 | 执行装配、焊接、搬运等物理操作 | 物理世界的精确操作 |
| 交易系统 | 执行买卖订单、调整投资组合 | 金融场景的自动化执行 |
执行的精确性:智能体的价值最终通过执行效果体现。执行系统需要:
- 精确控制:确保行动准确无误地实现决策意图
- 实时反馈:监控执行效果,及时调整或纠正
- 安全机制:在异常情况下采取安全措施,防止造成损害
智能体的完整循环:感知 → 决策 → 执行
这三个要素构成了智能体的核心循环:
#mermaid-svg-mazyDt7871CG5U75{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-mazyDt7871CG5U75 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-mazyDt7871CG5U75 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-mazyDt7871CG5U75 .error-icon{fill:#552222;}#mermaid-svg-mazyDt7871CG5U75 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-mazyDt7871CG5U75 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-mazyDt7871CG5U75 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-mazyDt7871CG5U75 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-mazyDt7871CG5U75 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-mazyDt7871CG5U75 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-mazyDt7871CG5U75 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-mazyDt7871CG5U75 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-mazyDt7871CG5U75 .marker.cross{stroke:#333333;}#mermaid-svg-mazyDt7871CG5U75 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-mazyDt7871CG5U75 p{margin:0;}#mermaid-svg-mazyDt7871CG5U75 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-mazyDt7871CG5U75 .cluster-label text{fill:#333;}#mermaid-svg-mazyDt7871CG5U75 .cluster-label span{color:#333;}#mermaid-svg-mazyDt7871CG5U75 .cluster-label span p{background-color:transparent;}#mermaid-svg-mazyDt7871CG5U75 .label text,#mermaid-svg-mazyDt7871CG5U75 span{fill:#333;color:#333;}#mermaid-svg-mazyDt7871CG5U75 .node rect,#mermaid-svg-mazyDt7871CG5U75 .node circle,#mermaid-svg-mazyDt7871CG5U75 .node ellipse,#mermaid-svg-mazyDt7871CG5U75 .node polygon,#mermaid-svg-mazyDt7871CG5U75 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-mazyDt7871CG5U75 .rough-node .label text,#mermaid-svg-mazyDt7871CG5U75 .node .label text,#mermaid-svg-mazyDt7871CG5U75 .image-shape .label,#mermaid-svg-mazyDt7871CG5U75 .icon-shape .label{text-anchor:middle;}#mermaid-svg-mazyDt7871CG5U75 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-mazyDt7871CG5U75 .rough-node .label,#mermaid-svg-mazyDt7871CG5U75 .node .label,#mermaid-svg-mazyDt7871CG5U75 .image-shape .label,#mermaid-svg-mazyDt7871CG5U75 .icon-shape .label{text-align:center;}#mermaid-svg-mazyDt7871CG5U75 .node.clickable{cursor:pointer;}#mermaid-svg-mazyDt7871CG5U75 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-mazyDt7871CG5U75 .arrowheadPath{fill:#333333;}#mermaid-svg-mazyDt7871CG5U75 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-mazyDt7871CG5U75 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-mazyDt7871CG5U75 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-mazyDt7871CG5U75 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-mazyDt7871CG5U75 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-mazyDt7871CG5U75 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-mazyDt7871CG5U75 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-mazyDt7871CG5U75 .cluster text{fill:#333;}#mermaid-svg-mazyDt7871CG5U75 .cluster span{color:#333;}#mermaid-svg-mazyDt7871CG5U75 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-mazyDt7871CG5U75 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-mazyDt7871CG5U75 rect.text{fill:none;stroke-width:0;}#mermaid-svg-mazyDt7871CG5U75 .icon-shape,#mermaid-svg-mazyDt7871CG5U75 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-mazyDt7871CG5U75 .icon-shape p,#mermaid-svg-mazyDt7871CG5U75 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-mazyDt7871CG5U75 .icon-shape .label rect,#mermaid-svg-mazyDt7871CG5U75 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-mazyDt7871CG5U75 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-mazyDt7871CG5U75 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-mazyDt7871CG5U75 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 感知
收集环境信息
决策
分析推理规划
执行
实施具体行动
环境变化
这个循环不断迭代,使智能体能够持续适应环境变化,逐步接近目标。
传统视角下的智能体演进
在当前大语言模型(LLM)的热潮出现之前,人工智能的先驱们已经对"智能体"这一概念进行了数十年的探索与构建。这些如今我们称之为"传统智能体"的范式,并非单一的静态概念,而是经历了一条从简单到复杂、从被动反应到主动学习的清晰演进路线。
反射智能体(Simple Reflex Agent)
这是演进的起点,结构最简单。它们的决策核心由工程师明确设计的"条件-动作"规则构成。经典的自动恒温器便是如此:若传感器感知的室温高于设定值,则启动制冷系统。
这种智能体完全依赖于当前的感知输入,不具备记忆或预测能力。它像一种数字化的本能,可靠且高效,但也因此无法应对需要理解上下文的复杂任务。它的局限性引出了一个关键问题:如果环境的当前状态不足以作为决策的全部依据,智能体该怎么办?
基于模型的反射智能体(Model-Based Reflex Agent)
为了回答这个问题,研究者们引入了"状态"的概念。这类智能体拥有一个内部的世界模型(World Model),用于追踪和理解环境中那些无法被直接感知的方面。它试图回答:"世界现在是什么样子的?"
例如,一辆在隧道中行驶的自动驾驶汽车,即便摄像头暂时无法感知到前方的车辆,它的内部模型依然会维持对那辆车存在、速度和预估位置的判断。这个内部模型让智能体拥有了初级的"记忆",使其决策不再仅仅依赖于瞬时感知,而是基于一个更连贯、更完整的世界状态理解。
基于目标的智能体(Goal-Based Agent)
然而,仅仅理解世界还不够,智能体需要有明确的目标。与前两者不同,它的行为不再是被动地对环境做出反应,而是主动地、有预见性地选择能够导向某个特定未来状态的行动。它需要回答的问题是:"我应该做什么才能达成目标?"
经典的例子是 GPS 导航系统:你的目标是到达公司,智能体会基于地图数据(世界模型),通过搜索算法(如 A* 算法)来规划出一条最优路径。这类智能体的核心能力体现在了对未来的考量与规划上。
基于效用的智能体(Utility-Based Agent)
更进一步,现实世界的目标往往不是单一的。我们不仅希望到达公司,还希望时间最短、路程最省油并且避开拥堵。当多个目标需要权衡时,基于效用的智能体便随之出现。它为每一个可能的世界状态都赋予一个效用值,代表满意度的高低。智能体的核心目标不再是简单地达成某个特定状态,而是最大化期望效用。它需要回答一个更复杂的问题:"哪种行为能为我带来最满意的结果?"
这种架构让智能体学会在相互冲突的目标之间进行权衡,使其决策更接近人类的理性选择。
学习型智能体(Learning Agent)
至此,我们讨论的智能体虽然功能日益复杂,但其核心决策逻辑依然依赖于人类设计师的先验知识。如果智能体能不依赖预设,而是通过与环境的互动自主学习呢?
这便是学习型智能体的核心思想,而**强化学习(Reinforcement Learning, RL)**是实现这一思想最具代表性的路径。一个学习型智能体包含一个性能元件(即我们前面讨论的各类智能体)和一个学习元件。学习元件通过观察性能元件在环境中的行动所带来的结果来不断修正性能元件的决策策略。
想象一个学习下棋的 AI。它开始时可能只是随机落子,当它最终赢下一局时,系统会给予它一个正向的奖励。通过大量的自我对弈,学习元件会逐渐发现哪些棋路更有可能导向最终的胜利。AlphaGo Zero 是这一理念的一个里程碑式的成就------它在围棋这一复杂博弈中,通过强化学习发现了许多超越人类既有知识的有效策略。
五种传统智能体的演进对比:
| 类型 | 核心问题 | 关键能力 | 局限性 | 典型代表 |
|---|---|---|---|---|
| 反射智能体 | 我看到了什么? | 条件-动作规则,即时响应 | 无记忆、无预测 | 恒温器、简单脚本 |
| 基于模型的反射智能体 | 世界现在是什么样子? | 内部世界模型,状态追踪 | 仍基于当前状态,无前瞻性 | 自动驾驶感知模块 |
| 基于目标的智能体 | 我该做什么才能达成目标? | 搜索与规划,多步前瞻 | 无法在冲突目标间权衡 | GPS 导航系统 |
| 基于效用的智能体 | 哪种行为最令人满意? | 效用函数,多目标权衡 | 仍依赖人类预设的效用函数 | 投资组合优化 |
| 学习型智能体 | 如何通过经验变得更好? | 强化学习,自我进化 | 需要大量训练数据和时间 | AlphaGo Zero |
从简单的恒温器,到拥有内部模型的汽车,再到能够规划路线的导航、懂得权衡利弊的决策者,最终到可以通过经验自我进化的学习者------这条演进之路,展示了传统人工智能在构建机器智能的道路上所经历的发展脉络。它们为我们今天理解更前沿的智能体范式,打下了坚实而必要的基础。
什么是 AI 智能体?

图片来自于 GitHub hello-agents 开源教育书籍,从教育的意义出发,写得很好。GitHub 地址:https://github.com/datawhalechina/hello-agents
以 GPT(Generative Pre-trained Transformer)为代表的大语言模型的出现,正在显著改变智能体的构建方法与能力边界。所谓的 AI 智能体,只是把传统智能体中的决策中心替换成 AI(特别是大语言模型),从而极大地增强了对于模糊指令的处理能力和复杂问题的解决能力。
AI 智能体的核心转变:
| 维度 | 传统智能体 | AI 智能体 |
|---|---|---|
| 核心引擎 | 工程师的显式编程与知识构建 | 大语言模型驱动的隐式世界模型与涌现能力 |
| 推理方式 | 基于确定性规则 | 基于概率推理 |
| 处理范围 | 封闭场景,预定义输入 | 开放场景,可处理训练中未见过的新情况 |
| 任务类型 | 专用,单一任务,行为模式确定且有边界 | 通用,同一模型可应用于多种不同任务,灵活应对复杂任务 |
| 交互方式 | 通过编程语言进行控制 | 通过自然语言进行交互和控制 |
LLM 智能体的三大核心能力
这种差异使得 LLM 智能体可以直接处理高层级、模糊且充满上下文信息的自然语言指令。以"智能旅行助手"为例,当接收到"规划一次厦门之旅"这样的模糊指令时,它的工作方式体现了以下几点:
| 能力 | 说明 | 示例 |
|---|---|---|
| 规划与推理 | 将高层级目标分解为一系列逻辑子任务 | [确认出行偏好] → [查询目的地信息] → [制定行程草案] → [预订票务住宿] |
| 工具使用 | 识别信息缺口,主动调用外部工具补全 | 调用天气查询接口获取实时天气,基于"预报有雨"倾向于推荐室内活动 |
| 动态修正 | 将用户反馈视为新约束,据此调整行动 | 用户说"这家酒店超出预算"→ 重新搜索符合新要求的选项 |
总而言之,我们正从开发专用自动化工具转向构建能自主解决问题的系统。核心不再是编写代码,而是引导一个通用的"大脑"去规划、行动和学习。
AI 在智能体中的角色
AI(特别是大语言模型)并不是智能体的"核心",而是极大地增强了智能体的能力:
| 增强维度 | 具体表现 |
|---|---|
| 感知增强 | AI 可以理解复杂的自然语言、图像、音频等多模态输入,甚至能从非结构化数据中提取深层含义 |
| 决策优化 | AI 能够处理模糊、不确定的信息,进行创造性推理,解决开放式问题 |
| 适应性提升 | AI 使智能体能够从经验中学习,适应新场景,无需重新编程 |
| 交互自然化 | AI 让智能体能够以更人性化的方式与人类交互,理解意图和上下文 |
智能体的关键特性
| 特性 | 说明 |
|---|---|
| 自主性(Autonomy) | 能够在没有持续人工干预的情况下运行,自主管理资源和任务 |
| 反应性(Reactivity) | 对环境变化做出及时响应,保持系统与环境的同步 |
| 主动性(Pro-activeness) | 不仅被动响应,还能主动设定目标、制定计划并执行 |
| 社交能力(Social Ability) | 与其他智能体或人类进行交互协作,形成多智能体系统 |
| 适应性(Adaptability) | 能够根据经验调整行为,提高在未来类似情况下的表现 |
| 目标导向性(Goal-oriented) | 所有行为都服务于实现特定目标或最大化某种效用 |
现实世界中的智能体示例
| 领域 | 典型代表 | 核心能力 |
|---|---|---|
| 个人助理 | Siri、Alexa、Copilot | 理解语音指令,执行任务,管理日程 |
| 金融交易 | 量化交易机器人 | 分析市场数据,自动买卖股票,执行高频交易策略 |
| 客户服务 | 智能客服系统 | 理解客户问题,提供解决方案或转接人工,处理常见咨询 |
| 游戏娱乐 | 游戏 NPC | 根据玩家行为做出智能反应,提供沉浸式游戏体验 |
| 工业制造 | 工业自动化系统 | 监控生产线,调整参数保证质量,预测设备故障 |
| 医疗健康 | 医疗诊断系统 | 分析医学影像,辅助医生做出诊断建议 |
| 智能家居 | 智能家居系统 | 根据用户习惯自动调节温度、照明和安全设置 |
| 内容分发 | 推荐系统 | 分析用户偏好,个性化推荐新闻、视频或商品 |
AI Agent 与传统智能体的区别
传统智能体(如无人驾驶系统)主要依赖预设规则和专用算法,而 AI Agent 则在多个维度上实现了质的飞跃:
| 对比维度 | 传统智能体 | AI Agent |
|---|---|---|
| 核心引擎 | 固定的规则系统 | 以大语言模型为核心推理引擎 |
| 任务范围 | 仅限于预定义场景 | 能够处理开放式任务和自然语言交互 |
| 泛化能力 | 依赖特定场景训练 | 具备更强的泛化能力和创造性,能处理训练时未见过的情况 |
| 工具使用 | 预定义的固定工具集 | 可以动态使用工具(搜索、计算、API 调用等),扩展自身能力边界 |
| 学习方式 | 需要重新训练才能适应新任务 | 支持在线学习和上下文学习,无需重新训练即可适应新任务 |
| 交互方式 | 结构化指令或编程接口 | 通过自然语言与人类协作,理解模糊指令和复杂上下文 |
智能体的发展历程
为了更好地理解智能体的演进,我们可以将其发展分为几个阶段:
| 阶段 | 时间 | 特征 |
|---|---|---|
| 简单反应式智能体 | 1950s - 1980s | 基于 if-then 规则,对环境变化做出简单反应 |
| 基于模型的智能体 | 1980s - 2000s | 维护内部世界模型,进行有限规划 |
| 学习型智能体 | 2000s - 2010s | 通过机器学习从数据中学习策略 |
| AI 增强智能体 | 2010s - 至今 | 集成深度学习和大语言模型,实现通用智能 |
| 多模态 AI 智能体 | 未来趋势 | 整合视觉、语言、听觉等多模态能力 |
智能体的应用价值
智能体技术正在深刻改变各行各业:
| 价值维度 | 具体表现 |
|---|---|
| 效率提升 | 自动化重复性任务,释放人力资源 |
| 决策优化 | 基于数据驱动决策,减少人为偏差 |
| 体验改善 | 提供个性化、智能化的用户体验 |
| 成本降低 | 减少人工干预,降低运营成本 |
| 创新加速 | 探索新的解决方案和商业模式 |
总结
智能体是一个通用的架构模式 ,而 AI 技术(特别是 LLM)让这个模式变得更加强大、灵活和智能。智能体不是 AI 的附属品,而是 AI 价值实现的重要载体。
2. 智能体类型
智能体并非铁板一块。根据分类维度的不同,我们可以从内部决策架构 、时间与反应性 、知识表示三个维度对智能体进行系统性的分类。理解这些分类,有助于我们在实际开发中选择合适的智能体架构。
2.1 基于内部决策架构的分类
这一分类维度依据智能体内部决策架构的复杂程度,在《Artificial Intelligence: A Modern Approach》中被系统性地提出[1]。正如第 1 节所述,传统智能体的演进路径本身就构成了最经典的分类阶梯------从简单的反应式 智能体,到引入内部模型的模型式 智能体,再到更具前瞻性的基于目标 和基于效用 的智能体。此外,学习能力则是一种可赋予上述所有类型的元能力,使其能通过经验自我改进。
| 类型 | 核心特征 | 能力边界 | 典型代表 |
|---|---|---|---|
| 简单反应式智能体 | 基于 if-then 规则,感知直接映射到行动 | 只能响应当前感知,无记忆、无规划 | 恒温器、简单脚本 |
| 基于模型的智能体 | 维护内部世界状态模型,跟踪环境变化 | 能感知不可见的状态信息,但仍基于当前状态决策 | 自动驾驶感知模块 |
| 基于目标的智能体 | 拥有明确的目标状态,会评估行动序列的效果 | 能规划多条路径,选择最可能达成目标的方案 | 路径规划系统、导航软件 |
| 基于效用的智能体 | 在目标基础上引入效用函数,量化"好"的程度 | 能在多个可达成目标的方案中选择"最优"的那个 | 投资组合优化、资源调度系统 |
| 学习型智能体 | 具备学习组件,能从经验中改进决策策略 | 可叠加于以上任何类型之上,使其持续进化 | AlphaGo、自适应推荐系统 |
关键理解 :这五种类型并非互斥,而是构成一个复杂度递增的阶梯。学习型智能体作为一种"元能力",可以与前面四种类型组合,形成更强大的混合体。
2.2 基于时间与反应性的分类
除了内部架构的复杂性,还可以从智能体处理决策的时间维度 进行分类。这个视角关注智能体是在接收到信息后立即行动,还是会经过深思熟虑的规划再行动。这揭示了智能体设计中一个核心权衡:追求速度的反应性 与追求最优解的规划性之间的平衡。

反应式智能体(Reactive Agents)
这类智能体对环境刺激做出近乎即时的响应,决策延迟极低。它们通常遵循从感知到行动的直接映射,不进行或只进行极少的未来规划。上文的简单反应式 和基于模型的智能体都属于此类别。
其核心优势在于速度快、计算开销低,这在需要快速决策的动态环境中至关重要。例如,车辆的安全气囊系统必须在碰撞发生的毫秒内做出反应,任何延迟都可能导致严重后果;同样,高频交易机器人也必须依赖反应式决策来捕捉稍纵即逝的市场机会。然而,这种速度的代价是"短视"------由于缺乏长远规划,反应式智能体容易陷入局部最优,难以完成需要多步骤协调的复杂任务。
规划式智能体(Deliberative Agents)
与反应式智能体相对,规划式(或称审议式)智能体在行动前会进行复杂的思考和规划。它们不会立即对感知做出反应,而是会先利用其内部的世界模型,系统地探索未来的各种可能性,评估不同行动序列的后果,以期找到一条能够达成目标的最佳路径。基于目标 和基于效用的智能体是典型的规划式智能体。
可以将其决策过程类比为一位棋手:他不会只看眼前的一步,而是会预想对手可能的应对,并规划出后续几步甚至十几步的棋路。这种深思熟虑的能力使其能够处理复杂的、需要长远眼光的任务,例如制定一份商业计划或规划一次长途旅行。然而,这种优势的另一面是高昂的时间和计算成本------在瞬息万变的环境中,当规划式智能体还在深思熟虑时,采取行动的最佳时机可能早已过去。
混合式智能体(Hybrid Agents)
现实世界的复杂任务,往往既需要即时反应,也需要长远规划。例如,一个智能旅行助手既要能根据用户的即时反馈(如"这家酒店太贵了")调整推荐(反应性),又要能规划出为期数天的完整旅行方案(规划性)。因此,混合式智能体应运而生,它旨在结合两者的优点,实现反应与规划的平衡。
一种经典的混合架构是分层设计:底层是一个快速的反应模块,处理紧急情况和基本动作;高层则是一个审慎的规划模块,负责制定长远目标。而现代的 LLM 智能体,则展现了一种更灵活的混合模式------它们通常在一个"思考-行动-观察"的循环中运作,巧妙地将两种模式融为一体:
| 阶段 | 模式 | 说明 |
|---|---|---|
| 思考(Reasoning) | 规划模式 | LLM 分析当前状况,规划出下一步的合理行动,这是一个审议过程 |
| 行动(Acting) | 反应模式 | 智能体与外部工具或环境交互,执行具体操作 |
| 观察(Observing) | 反应模式 | 立即获得执行反馈,感知环境变化 |
通过这种方式,智能体将一个需要长远规划的宏大任务,分解为一系列"规划-反应"的微循环。这使其既能灵活应对环境的即时变化,又能通过连贯的步骤,最终完成复杂的长期目标。
三种类型的核心对比:
| 对比维度 | 反应式智能体 | 规划式智能体 | 混合式智能体 |
|---|---|---|---|
| 决策速度 | 极快,近乎即时 | 较慢,需要计算时间 | 分层处理,快慢结合 |
| 计算开销 | 低 | 高 | 中等 |
| 规划能力 | 无或极弱 | 强,可多步前瞻 | 兼具即时响应与长远规划 |
| 适应性 | 仅适应当前环境 | 适应可预测的未来 | 同时适应即时变化和长期目标 |
| 典型应用 | 安全气囊、高频交易 | 商业计划、路径规划 | LLM 智能体、智能旅行助手 |
| 主要局限 | 容易陷入局部最优 | 可能错过最佳时机 | 架构复杂度较高 |
2.3 基于知识表示的分类
这是一个更根本的分类维度,它探究智能体用以决策的知识究竟是以何种形式存在于其"思想"之中。这个问题是人工智能领域一场持续半个多世纪的辩论核心,并塑造了两种截然不同的 AI 文化。
符号主义 AI(Symbolic AI)
符号主义,常被称为传统人工智能,其核心信念是:智能源于对符号的逻辑操作。这里的符号是人类可读的实体(如词语、概念),操作则遵循严格的逻辑规则。这好比一位一丝不苟的图书管理员,将世界知识整理为清晰的规则库和知识图谱。
其主要优势在于透明和可解释 。由于推理步骤明确,其决策过程可以被完整追溯,这在金融、医疗等高风险领域至关重要。然而,其"阿喀琉斯之踵"在于脆弱性:它依赖于一个完备的规则体系,但在充满模糊和例外的现实世界中,任何未被覆盖的新情况都可能导致系统失灵------这就是所谓的"知识获取瓶颈"。
亚符号主义 AI(Sub-symbolic AI)
亚符号主义,或称连接主义,则提供了一幅截然不同的图景。在这里,知识并非显式的规则,而是内隐地分布在一个由大量神经元组成的复杂网络中,是从海量数据中学习到的统计模式。神经网络和深度学习是其代表。
如果说符号主义 AI 是图书管理员,那么亚符号主义 AI 就像一个牙牙学语的孩童------他不是通过学习"猫有四条腿、毛茸茸、会喵喵叫"这样的规则来认识猫的,而是在看过成千上万张猫的图片后,大脑中的神经网络能辨识出"猫"这个概念的视觉模式。这种方法的强大之处在于其模式识别能力和对噪声数据的鲁棒性 ,能够轻松处理图像、声音等非结构化数据。然而,这种强大的直觉能力也伴随着不透明性 ------亚符号主义系统通常被视为一个黑箱,它能以惊人的准确率识别出图片中的猫,但你若问它"为什么你认为这是猫?",它很可能无法给出一个合乎逻辑的解释。此外,它在纯粹的逻辑推理任务上表现不佳,有时会产生看似合理却事实错误的幻觉。
神经符号主义 AI(Neuro-Symbolic AI)
长久以来,符号主义和亚符号主义如同两条平行线,各自发展。为克服上述两种范式的局限,一种"大和解"的思想开始兴起------这就是神经符号主义 AI,也称神经符号混合主义。它的目标是融合两大范式的优点,创造出一个既能像神经网络一样从数据中学习,又能像符号系统一样进行逻辑推理的混合智能体,弥合感知与认知、直觉与理性之间的鸿沟。
诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考,快与慢》中提出的双系统理论 ,为我们理解神经符号主义提供了一个绝佳的类比[2]:

| 卡尼曼双系统理论 | 对应的 AI 范式 | 特征 |
|---|---|---|
| 系统 1:快速、凭直觉、并行的思维模式 | 亚符号主义 AI(神经网络) | 强大的模式识别能力,擅长感知和直觉判断 |
| 系统 2:缓慢、有条理、基于逻辑的审慎思维 | 符号主义 AI(逻辑推理) | 严密的推理能力,擅长规划和逻辑验证 |
人类的智能,正源于这两个系统的协同工作。同样,一个真正鲁棒的 AI,也需要兼具二者之长。大语言模型驱动的智能体 正是神经符号主义的一个极佳实践范例:其内核是一个巨大的神经网络,使其具备模式识别和语言生成能力;然而,当它工作时,它会生成一系列结构化的中间步骤------如思想、计划或 API 调用------这些都是明确的、可操作的符号。通过这种方式,它实现了感知与认知、直觉与理性的初步融合。
三种知识表示范式的核心对比:
| 对比维度 | 符号主义 AI | 亚符号主义 AI | 神经符号主义 AI |
|---|---|---|---|
| 知识形式 | 显式规则、逻辑符号 | 隐式分布的神经网络权重 | 符号与神经网络的混合 |
| 推理方式 | 逻辑演绎、规则匹配 | 统计模式匹配、概率推理 | 模式识别 + 逻辑推理的协同 |
| 可解释性 | 高,决策过程可完整追溯 | 低,典型的黑箱系统 | 中等,关键步骤可解释 |
| 学习方式 | 依赖专家手动编码规则 | 从海量数据中自动学习 | 数据驱动学习 + 规则约束 |
| 优势 | 透明、可审计、逻辑严密 | 模式识别强、鲁棒性好 | 兼具学习能力和推理能力 |
| 劣势 | 脆弱、知识获取瓶颈 | 黑箱、缺乏逻辑推理、可能产生幻觉 | 架构复杂,融合难度高 |
| 典型应用 | 专家系统、知识图谱 | 图像识别、语音识别、大语言模型 | LLM 智能体(思考-行动-观察循环) |
| 类比 | 一丝不苟的图书管理员 | 牙牙学语的孩童 | 成熟理性的人类(系统1 + 系统2) |
3. 智能体的构成与运行原理
3.1 任务环境与 PEAS 模型
要理解智能体的运作,我们必须先理解它所处的任务环境 。在人工智能领域,通常使用 PEAS 模型 来精确描述一个任务环境,即分析其性能度量(Performance)、环境(Environment)、执行器(Actuators)和传感器(Sensors)。
| PEAS 维度 | 含义 | 智能旅行助手示例 |
|---|---|---|
| P - 性能度量(Performance) | 衡量智能体表现好坏的标准 | 行程合理性、用户满意度、预算控制 |
| E - 环境(Environment) | 智能体所处的外部世界 | 互联网(航班、酒店、景点、天气等信息源) |
| A - 执行器(Actuators) | 智能体用来影响环境的手段 | 调用预订 API、发送确认邮件、生成行程文档 |
| S - 传感器(Sensors) | 智能体获取环境信息的渠道 | 用户输入、API 返回数据、网页抓取结果 |
在实践中,LLM 智能体所处的数字环境展现出若干复杂特性,这些特性直接影响着智能体的设计:
| 环境特性 | 说明 | 对智能体的要求 |
|---|---|---|
| 部分可观察 | 智能体无法一次性获取环境的全部信息 | 必须具备记忆和探索能力 |
| 随机性 | 行动结果并非总是确定的,相同操作可能产生不同结果 | 必须具备处理不确定性、监控变化并及时决策的能力 |
| 多智能体 | 环境中存在其他行动者,它们的行动会改变环境状态 | 必须具备快速响应和策略选择能力 |
| 序贯且动态 | 当前动作会影响未来,环境自身也在持续变化 | 感知-思考-行动-观察循环必须快速、灵活 |
3.2 智能体循环(Agent Loop)
在定义了智能体所处的任务环境后,我们来探讨其核心的运行机制。智能体并非一次性完成任务,而是通过一个持续的循环与环境进行交互,这个核心机制被称为智能体循环(Agent Loop)。
#mermaid-svg-EIsfNWefrpXBSCNR{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-EIsfNWefrpXBSCNR .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-EIsfNWefrpXBSCNR .error-icon{fill:#552222;}#mermaid-svg-EIsfNWefrpXBSCNR .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-EIsfNWefrpXBSCNR .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-EIsfNWefrpXBSCNR .marker{fill:#333333;stroke:#333333;}#mermaid-svg-EIsfNWefrpXBSCNR .marker.cross{stroke:#333333;}#mermaid-svg-EIsfNWefrpXBSCNR svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-EIsfNWefrpXBSCNR p{margin:0;}#mermaid-svg-EIsfNWefrpXBSCNR .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-EIsfNWefrpXBSCNR .cluster-label text{fill:#333;}#mermaid-svg-EIsfNWefrpXBSCNR .cluster-label span{color:#333;}#mermaid-svg-EIsfNWefrpXBSCNR .cluster-label span p{background-color:transparent;}#mermaid-svg-EIsfNWefrpXBSCNR .label text,#mermaid-svg-EIsfNWefrpXBSCNR span{fill:#333;color:#333;}#mermaid-svg-EIsfNWefrpXBSCNR .node rect,#mermaid-svg-EIsfNWefrpXBSCNR .node circle,#mermaid-svg-EIsfNWefrpXBSCNR .node ellipse,#mermaid-svg-EIsfNWefrpXBSCNR .node polygon,#mermaid-svg-EIsfNWefrpXBSCNR .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-EIsfNWefrpXBSCNR .rough-node .label text,#mermaid-svg-EIsfNWefrpXBSCNR .node .label text,#mermaid-svg-EIsfNWefrpXBSCNR .image-shape .label,#mermaid-svg-EIsfNWefrpXBSCNR .icon-shape .label{text-anchor:middle;}#mermaid-svg-EIsfNWefrpXBSCNR .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-EIsfNWefrpXBSCNR .rough-node .label,#mermaid-svg-EIsfNWefrpXBSCNR .node .label,#mermaid-svg-EIsfNWefrpXBSCNR .image-shape .label,#mermaid-svg-EIsfNWefrpXBSCNR .icon-shape .label{text-align:center;}#mermaid-svg-EIsfNWefrpXBSCNR .node.clickable{cursor:pointer;}#mermaid-svg-EIsfNWefrpXBSCNR .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-EIsfNWefrpXBSCNR .arrowheadPath{fill:#333333;}#mermaid-svg-EIsfNWefrpXBSCNR .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-EIsfNWefrpXBSCNR .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-EIsfNWefrpXBSCNR .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-EIsfNWefrpXBSCNR .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-EIsfNWefrpXBSCNR .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-EIsfNWefrpXBSCNR .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-EIsfNWefrpXBSCNR .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-EIsfNWefrpXBSCNR .cluster text{fill:#333;}#mermaid-svg-EIsfNWefrpXBSCNR .cluster span{color:#333;}#mermaid-svg-EIsfNWefrpXBSCNR div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-EIsfNWefrpXBSCNR .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-EIsfNWefrpXBSCNR rect.text{fill:none;stroke-width:0;}#mermaid-svg-EIsfNWefrpXBSCNR .icon-shape,#mermaid-svg-EIsfNWefrpXBSCNR .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-EIsfNWefrpXBSCNR .icon-shape p,#mermaid-svg-EIsfNWefrpXBSCNR .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-EIsfNWefrpXBSCNR .icon-shape .label rect,#mermaid-svg-EIsfNWefrpXBSCNR .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-EIsfNWefrpXBSCNR .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-EIsfNWefrpXBSCNR .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-EIsfNWefrpXBSCNR :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 感知 Perception
接收环境输入
思考 Thought
规划 + 工具选择
行动 Action
执行具体操作
环境变化
状态改变
观察 Observation
获取执行反馈
这个循环主要包含以下几个相互关联的阶段:
| 阶段 | 说明 | 具体表现 |
|---|---|---|
| 感知(Perception) | 循环的起点,通过传感器接收来自环境的输入信息 | 用户的初始指令,或上一步行动所导致的环境状态变化反馈 |
| 思考(Thought) | 核心决策阶段,由 LLM 驱动的内部推理过程 | 包含规划 (分解子任务、制定计划)和工具选择(选择最适合的工具及参数)两个环节 |
| 行动(Action) | 通过执行器执行具体行动,对环境施加影响 | 调用选定的工具(如代码解释器、搜索引擎 API) |
行动并非循环的终点。智能体的行动会引起环境的状态变化,环境随即产生一个新的**观察(Observation)**作为结果反馈。这个新的观察又会在下一轮循环中被感知系统捕获,形成一个持续的"感知-思考-行动-观察"的闭环。智能体正是通过不断重复这一循环,逐步推进任务,从初始状态向目标状态演进。
3.3 Thought-Action-Observation 交互协议
在工程实践中,为了让 LLM 能够有效驱动这个循环,我们需要一套明确的交互协议来规范其与环境之间的信息交换。在许多现代智能体框架中,这一协议体现在对智能体每一次输出的结构化定义上。
智能体的输出不再是单一的自然语言回复,而是一段遵循特定格式的文本,其中明确地展示了其内部的推理过程与最终决策。这个结构通常包含两个核心部分:
| 组件 | 角色 | 格式 |
|---|---|---|
| Thought(思考) | 智能体内部决策的"快照",阐述分析、反思与规划 | 自然语言描述 |
| Action(行动) | 基于思考后对环境施加的具体操作 | 函数调用形式 |
例如,一个正在规划旅行的智能体可能会生成如下格式化的输出:
bash
Thought: 用户想知道北京的天气。我需要调用天气查询工具。
Action: get_weather("北京")
行动执行后,环境会返回一个结果。然而,原始的机器可读数据(如 JSON)通常包含冗余信息,且格式不符合 LLM 的自然语言处理习惯。因此,感知系统的一个重要职责就是将原始输出处理并封装成一段简洁、清晰的自然语言文本,即 Observation:
bash
Observation: 北京当前天气为晴,气温25摄氏度,微风。
这段 Observation 文本会被反馈给智能体,作为下一轮循环的主要输入信息,供其进行新一轮的 Thought 和 Action。
Agent Loop 完整流程总结:
| 步骤 | 组件 | 说明 |
|---|---|---|
| 1 | Thought | 分析当前情境,规划下一步行动 |
| 2 | Action | 以函数调用形式执行具体操作 |
| 3 | Observation | 环境返回执行结果,封装为自然语言 |
| 4 | 回到步骤 1 | 基于 Observation 进行新一轮思考 |
通过这个由 Thought、Action、Observation 构成的严谨循环,LLM 智能体得以将内部的语言推理能力,与外部环境的真实信息和工具操作能力有效地结合起来。
4. Workflow 与 Agent 的差异
在理解了智能体的运行机制后,我们有必要对 Workflow 和 Agent 的差异展开讨论。尽管它们都旨在实现任务自动化,但其底层逻辑、核心特征和适用场景却截然不同。
简单来说:Workflow 是让 AI 按部就班地执行指令,而 Agent 则是赋予 AI 自由度去自主达成目标。
| 对比维度 | Workflow(工作流) | Agent(智能体) |
|---|---|---|
| 核心逻辑 | 预先定义的、结构化的步骤编排 | 具备自主性的、以目标为导向的系统 |
| 执行方式 | 精确的静态流程图,规定了条件、顺序和操作 | 理解环境、推理、制定计划,动态采取行动 |
| 灵活性 | 低,每一步和判断条件都被精确预设 | 高,能基于实时信息进行动态推理和决策 |
| 适用场景 | 流程明确、步骤可枚举的重复性任务 | 开放式、需要判断和适应的复杂任务 |
| 典型例子 | 企业费用报销审批流程 | 智能旅行助手(根据天气动态推荐景点) |
以企业费用报销为例:员工提交报销单 → 金额小于 500 元由部门经理审批 → 金额大于 500 元需财务总监审批 → 审批通过后通知财务打款。整个过程的每一步都被精确预设,没有任何"思考"的空间。
而智能旅行助手则截然不同:当用户说"查一下北京天气,推荐景点"时,Agent 会自主规划(先查天气,再推荐景点)、自主推理("晴天适合户外活动")、自主决策(推荐颐和园而非国家博物馆)。如果天气是"雨天",Agent 会自主调整策略,推荐室内场所。这种基于实时信息进行动态推理和决策的能力,正是 Agent 的核心价值所在。
5. 本章小结
本章从多个维度对智能体进行了系统性的学习和总结:
| 内容模块 | 核心要点 |
|---|---|
| 智能体定义 | 能够感知环境、进行决策并执行行动以实现特定目标的自主系统,包含环境、传感器、执行器、自主性四个基本要素 |
| 传统智能体演进 | 从反射智能体 → 基于模型的反射智能体 → 基于目标的智能体 → 基于效用的智能体 → 学习型智能体,构成复杂度递增的阶梯 |
| AI 智能体 | 以 LLM 为核心决策引擎,具备规划与推理、工具使用、动态修正三大核心能力 |
| 智能体类型 | 从内部决策架构、时间与反应性、知识表示三个维度进行分类 |
| 运行原理 | 基于 PEAS 模型定义任务环境,通过 Agent Loop(感知-思考-行动-观察)持续与环境交互 |
| Workflow vs Agent | Workflow 是预设流程的执行,Agent 是自主目标的达成,核心差异在于灵活性和动态决策能力 |