本章将回顾 AI 智能体 的演进历程,从早期的机器人流程自动化(RPA)到当今复杂的多智能体架构。我们将界定"什么才是真正的 AI 智能体",拆解其关键组成,并考察正在重塑全球各行各业的不同类型的 AI 智能体。
本章将涵盖以下主题:
- 从 RPA 到 AI 智能体的演进
- AI 智能体的定义
- 不同类型的 AI 智能体
- AI 智能体的组成部分
读完本章后,你将清晰理解 AI 智能体的演进、其关键组件,以及它们如何改变产业。
技术要求
你可以在本书配套的 GitHub 代码库获取本章的完整代码:github.com/PacktPublis...
从 RPA 到 AI 智能体的演进
从传统的基于规则 自动化到复杂的AI 驱动 智能体,这段旅程伴随着显著的技术进步。最初的自动化局限于僵化、预定义 的工作流;随着机器学习(ML)、强化学习(RL)与大型语言模型(LLM)的兴起,AI 智能体正变得更加自主、智能 ,并具备复杂决策能力。下面我们按阶段梳理近几十年的几种"代理"形态。
机器人流程自动化(RPA)
这是自动化的早期形态,聚焦于基于规则 的系统来执行预定义任务。此类系统遵循严格的逻辑流程,依据明确条件与结构化输入采取行动。它们对重复性流程 很有效,但缺乏灵活性、适应性 ,也难以处理非结构化数据 。例如,一个严格依据决策树运作、不会从交互中学习的规则型聊天机器人 ,在动态环境 或意外输入面前就捉襟见肘。
传统的 ML/RL 智能体
随着 AI 发展,基于机器学习 与强化学习 的智能体出现。它们可以从数据中学习,基于概率模型 做决策,并通过试错优化行为。我们分别展开:
-
基于规则的代理 → 机器学习模型 :从静态规则集逐步过渡到能基于训练数据进行分类与预测 的模型。
例如,早期的客服聊天机器人 依据决策树 回答用户,并结合命名实体识别机制进行路由。
定义(Definition)
命名实体识别(NER) 是一种自然语言处理任务,用于识别并归类文本中的关键信息,如人名、组织名、地点、日期及其他预定义实体。 -
强化学习(RL)智能体 :通过与环境交互进行学习,为获得长期回报 而优化行动。RL 被广泛用于游戏、机器人 与复杂问题求解 。
例如,DeepMind 的 AlphaGo 通过模拟数百万盘对弈并以试错优化策略,学会了围棋。
然而,这些早期智能体的主要短板 是泛化能力有限 。以 AlphaGo 为例:它虽在围棋上臻于化境,但其智能狭窄且领域特定 ------既不能把所学迁移到象棋等其他棋类,也无法胜任客服或排期这样的无关任务。这类 AI 在边界明确 的环境中表现卓越,但当规则、上下文或输入模式 发生变化就难以适应。
这暴露了 AI 的更广泛挑战:我们需要能跨领域推理 、理解模糊指令 ,并对动态环境 进行实时适应的智能体。
这正是 LLM 驱动智能体 登场之处。
基于 LLM 的智能体
随着 LLM 的出现,智能体在推理、规划与动态交互 上的能力显著增强。生成式 AI 使这些智能体不仅能回答问题,还能综合信息、自动化工作流 ,并与多种外部系统集成------本章后文将详细展开。
从高层看,基于 LLM 的智能体之所以强大,在于它们可利用诸如 GPT-4o 等模型,不仅理解上下文、检索相关信息 ,还可编排 一组组件,使智能体能与周边环境互动。这一"额外的智能层 "使现代 AI 智能体区别于既有的 RPA 系统 ,也区别于仅生成文本的 LLM 本身。
此外,一旦引入大型多模态模型 ,AI 智能体就能融合文本、语音、视觉、结构化数据 等多模态,以更贴近人类 的方式进行交互。
例如,一个基于 LLM 的零售助理 可以处理语音问询、分析商品图片,并实时查询库存数据库。
多智能体系统与自我复制智能体
AI 智能体演进中的一大突破是多智能体系统 :多个智能体协作 完成复杂任务。通过任务分解、专业化与并行执行 ,系统获得更高的效率与自主性。
例如,一个多智能体研究系统中:一名代理负责检索论文 ,另一名总结内容 ,第三名则为团队产出可执行洞见。
此外,我们还可赋予代理以"自我复制 "能力:根据需求生成额外子代理 来处理子任务,实现弹性扩展。
例如,一个 AI 项目经理 可派生设计、编码、测试等专业子代理来协作完成软件开发流程。
AGI 智能体:下一道前沿
AI 演化的终极目标是通用人工智能(AGI)智能体 ------能够胜任人类所能完成的任何智力任务 的系统。AGI 智能体将整合推理、规划、记忆与自我改进 ,在广泛应用中自主运作。
在本书写作时,AGI 仍未达成普遍共识的标准形态,但我们正在见证 AI 智能体边界的持续拓展,令人振奋。
在全书中,我们主要聚焦于单体、基于 LLM 的智能体 ,并在第 7 章 涉及多智能体框架。接下来,让我们先给出 AI 智能体的定义。
AI 智能体的组成(Components of an AI agent)
AI 智能体 是一类基于软件的实体,能够感知其环境、围绕目标进行推理、做出决策并执行行动------常以自主 方式------并与外部系统交互。不同于遵循预编程规则的传统自动化,AI 智能体可以根据上下文动态适应 、利用外部工具 ,并引入记忆以随时间改进决策。
在技术层面上,AI 智能体由若干核心组件构成:
- LLM :代理的推理引擎 ,提供自然语言理解、响应生成与任务规划。诸如 GPT-4、Claude、Gemini 等 LLM 使代理能够处理用户输入、生成回答,甚至进行多步推理。
- 系统消息(System message) :可将其视为代理的"使命宣言",为代理提供塑造行为的底层指令。除总体目标外,系统消息还定义语气、角色与约束(例如:"你是一名客服助理;请简洁并具同理心地回答")。
- 记忆(Memory) :使代理能够跨时间保留上下文,提升连贯性与个性化。高层上可区分为短期 (基于会话)与长期 (存储过往交互的数据库)。此外还有多种细分记忆形态(短期、情景式、程序式等),将在第 4 章展开。
- 工具(Tools) :将代理能力扩展到 LLM 之外。代理通过调用 API、数据库、搜索引擎、自动化脚本 等外部工具来获取实时数据、执行计算或触发外部流程。
- 知识库(Knowledge base) :存放代理可引用的结构化/非结构化领域知识,包括 RAG 系统、专有企业数据或专业知识库,以增强决策能力。

图 2.1:AI 智能体的主要组件
在此之上,还需要一个编排层(orchestration layer)来治理任务流转,确保各组件之间的协调。
注(Note)
AI 智能体可能有 也可能没有 用户界面。一方面,它们可以是面向用户 的对话式应用(如客服代理基于用户输入回应产品咨询);另一方面,它们也可在自动化流程中幕后运行 ------若由事件触发(例如:系统中新建工单即自动给出解决方案的代理),则无需 UI。
举例:设想一所学校开发一名 AI 代理,帮助高中生掌握复杂的 STEM 主题。借助 LLM、记忆与编排 ,该代理可提供个性化辅导 、引用权威来源 ,并依据每位学生的学习需求自适应。

图 2.2:AI 辅导助理示例
下面放大到各组件:
- LLM :作为核心推理引擎------代理的"大脑 ",负责解释概念、解决问题、以对话方式回答学生问题------这得益于代理其他组件提供的附加信息。
注(Note)
需牢记:LLM 通常在公开/通用语料 上训练,若不进行锚定(grounding) ,往往缺乏对特定行业、专有数据或组织流程的深层上下文理解。因此,为特定用例提供外部知识库 能赋予代理领域知识 ,提升准确性、可信度与实用性。 - 系统消息 :定义代理的人设与行为边界,使其始终与教育目标对齐(我们不希望 AI 导师代做作业,而是通过支持学习过程来强化薄弱环节、聚焦特定学习点)。
- 编排(Orchestration) :负责 UI、LLM 与各组件 之间的顺畅交互;智能路由请求,决定何时取外部数据、引用已存的学生表现历史,或直接由 LLM 生成内容。
- 记忆(Memory) :追踪学生的会话以保持话题相关(短期记忆 );并保存过往交互以形成学生学业画像(长期记忆)。据此,代理可基于强弱项强化难点并优化教学计划。
- 知识(Knowledge) :存放回答所需的相关资料,尤其在需要把模型锚定到一组文档(如校内手册)时尤为有用。
- 工具与 API 集成 :为代理赋能行动 的所在。例如接入学生与学校日历 ,使其可按空闲与课表代订辅导课。
- UI(学生界面) :提供基于聊天的交互式学习体验,整合文本、示意图与分步解题。
实际工作流程示例:
- 学生提出一则关于牛顿力学的复杂问题。
- LLM 处理查询,并利用既往交互与上下文记忆。
- 编排器判断是否需引用参考资料、学生历史表现或进行外网检索。
- 如有需要,代理从学校参考手册中检索相关信息。
- LLM 依据学生水平定制讲解,并针对其历次考试薄弱点进行强化。
- 学生收到交互式回应:含分步讲解、可视化辅助与练习题。
- 代理进一步提供预约加课选项,依据日历中可用时段安排。
- 学生同意后,代理代为预约课程。
接下来一个关键问题是:代理如何知道何时调用特定知识或特定工具?
其强大之处在于:语言模型理解自然语言 。每当一个工具/组件(例如"预订会议"操作)被注册,它不仅仅由底层逻辑(如调用某 API 的 POST 请求)定义,还会配有一段自然语言描述 ,用清晰的文字说明该工具做什么 、返回什么 。LLM 会读取这些描述,并据此决定何时/如何 在任务中调用工具。本质上,模型不仅在执行代码,更在基于人类可读描述 对可用动作进行推理与选择。

图 2.3:以自然语言描述代理组件的示例
因此,当用户提出请求时,代理(以 LLM 为"大脑")会遍历所有组件描述 ,判断应调用哪一个来解决问题。
实践中,我们可以为"如何调用合适的工具"定义不同策略 。例如,你可能希望某个工具总是先被调用 ,然后再由代理决定是否需要追加其他工具。应对这种规定次序 的一种方式,是直接写入系统消息。例如:
你是一名乐于助人的 AI 助手。你可以使用以下工具:
Tool A
Tool B
当你收到用户请求时,总是先调用 Tool A 。若用 Tool A 无法完成,再调用 Tool B。在尝试 Tool A 之前不要调用 Tool B。
这些策略由编排器层进行定义与落实,第 3 章将进一步说明。
AI 智能体的不同类型(Different types of AI agents)
AI 智能体在复杂度与能力上各不相同,从简单的检索型 代理到完全自主 系统不一而足。理解这些类型有助于组织与开发者为特定用例选型。本节我们将把 AI 智能体归为三大类:检索型代理(retrieval agents) 、任务型代理(task agents)与自主型代理(autonomous agents) 。
检索型代理(Retrieval agents)
在第 1 章中,我们介绍了 RAG(检索增强生成) :在生成回答前,LLM 会先从已正确嵌入并存储于 向量数据库(VectorDB) 的知识库中检索相关文档或片段。
检索型 AI 代理 建立在 RAG 的基础上,但引入了更先进的代理式行为 ,使其更具自主性与适应性 。实际上,我们在标准 RAG 流水线之上增加了一层智能与规划 ,让代理可以为"如何检索到最相关的信息"制定策略。
注(Note)
检索型 AI 代理常被称为 agentic RAG 。在这种方法中,知识源被视为"工具(tools) ",即每个来源都配有一段自然语言描述 ,从而使代理可依据用户查询决定调用哪一来源 。一旦调用,具体检索机制与传统 RAG 相同;不同之处在于,新增的智能层可以判断当前信息是否足够 ,必要时继续调用其他来源。
示例 :我们希望为医生构建一个能快速检索治疗方案的 AI 助手。医生提问:"2 型糖尿病 的最新治疗方案有哪些?"来看两种方法的对比:
传统 RAG 方法:
- 系统从数据库中检索最相关的三篇文章;
- 模型从这些文章中抽取相关文本并生成概述性回答;
- 若检索结果未能充分 回答问题,除非医生手动提交新查询,模型无法自行细化搜索。

图 2.4:传统 RAG 流水线
检索型 AI 代理方法:
- 代理首先检索一组初始文档并进行分析;
- 它检测到部分研究已过时 ,于是细化检索条件 ,再取更近期的出版物;
- 识别到针对某一特定药物 的信息缺口,进一步检索该药物的专项研究;
- 最终将所有检索来源综合 为一份完整答案,确保相关性与完备性。

图 2.5:Agentic RAG 流水线
小结: 与传统 RAG 相比,agentic RAG 带来多方面改进:
- 多步与递归检索 :不再一次性检索完毕,代理会迭代细化 搜索,将复杂问题分解为多步;
- 上下文感知 :保留交互记忆 ,可追问澄清 或动态调整检索策略;
- 工具驱动的查询执行 :可与 API、数据库、向量搜索引擎 交互,获取实时 与结构化数据;
- 自适应知识增强 :不同于静态检索,代理可从多来源 补充信息并进行语境化综合;
- 自主决策 :能判断何时 需要更多信息、选择 查询哪些来源、以及如何细化结果以获得最佳相关性。
检索型代理是最基础 的 AI 代理形态,但这层额外的智能已显著改善用户体验 。然而,AI 代理的真正威力在于将检索能力与可执行任务 相结合------这一点将在后续的任务型 与自主型代理中体现。
任务型代理(Task agents)
任务型代理 不止于信息检索,它们会执行具体动作 。此类代理旨在自动化工作流、替代用户的重复性操作。与检索型代理不同,任务型代理会根据用户指令 或外部触发器 执行预定义的动作。
注(Note)
在谈到 AI 智能体时,你常会听到 tasks、tools、skills、plugins、functions、actions 等术语,常被交替使用来指代代理"能做事"的能力。不同的编排平台对术语也各不相同。下面做个简要厘清:
- Tasks(任务) :定义要完成的目标,可从简单动作(如发送邮件)到包含多步操作的复杂流程。
- Tools(工具) :提供执行任务的外部手段,如数据可视化工具 绘制图表,或机器翻译服务进行多语言翻译。
- Plugins(插件) :通过与其他平台集成扩展能力,通常包含一组可在该平台上执行的操作/函数(如列出行、追加记录等)。
- Functions(函数) :描述内部的操作方法;例如,正确定义的
get_weather
函数可以返回某地的实时天气。 - Skills(技能) :指代理学到的熟练能力 ,通常以**声明式(自然语言)**方式定义;可将其视作仅在需要时被调用的"迷你提示词"。
- Actions(行动) :代理针对特定输入或情境采取的具体步骤/操作 ,是其函数与技能的实时体现,会产生可观察的结果。
让我们继续看一个医疗 领域的示例,这次从全科诊所前台接待员 John 的视角出发。
John 需要处理大量预约 请求。病人通过电话、邮件与线上系统预约。处理临时取消 与改期非常耗时,也常导致排班出现空档。
John 一天的典型流程可能如下:
- 收到病人 X 的预约邮件 ,其中包含对日期/时间的偏好;
- 查询 相关专科医生的可用时段,尽量匹配病人偏好与最早可约时间;
- 若无匹配 ,则回复 病人 X 寻求备选方案;
- 双方最终确认 一个时段并创建预约。
本质上,上述步骤就是 John 为达成目标(为医生与病人找到最优时间 )所需完成的一系列任务。
当我们希望用 AI 智能体(更具体地说,任务型代理 )来映射并增强 业务流程时,一个良好实践是把人的任务 转化为代理的任务。例如,任务型代理可这样协助 John:

图 2.6:任务型代理如何执行一项任务
(提示:需要查看高清图?请在 next-gen Packt Reader 或本书的 PDF/ePub 版本中查看。购买本书可免费获得 next-gen Packt Reader。扫描二维码或访问 packtpub.com/unlock,搜索本书名称并确认版本。)
-
自动扫描邮件 :代理读取来自病人 X 的邮件,提取关键信息(姓名与联系方式、偏好日期/时间、所需专科)。
-
检查可用性 :代理调用诊所排班系统插件 (即我们为代理配备的工具),将病人的偏好与该专科医生最早可用时段进行匹配;若匹配,跳至步骤 5。
-
生成备选并拟稿 :若无匹配 ,代理基于医生日程生成最优备选时段列表 ,并借助写作技能起草给病人 X 的回复邮件(由 John 审核后发送)。
-
病人反馈:病人 X 提出新偏好,并且要么
- 接受其一(进入步骤 5),要么
- 请求更多选项 ,则代理重复上一步。
-
落地预约与通知 :John 与病人 X 达成一致 后,代理再次使用上述插件在系统中创建预约 ,并通过邮件插件 发送确认邮件给病人 X;同时更新医生日历 并通知其预订信息。

图 2.7:面向诊所的任务型 AI 代理"解剖图"示例
如你所见,AI 代理就像 John 的助理 ,代为处理重复的排班任务 ,从而让他把精力集中在线下接待与服务上。
自主型代理(Autonomous agents)
自主型代理 是最先进的一类 AI 智能体。不同于在预设边界内运行的检索型 与任务型 代理,自主型代理能够战略性编排 多项任务与检索流程,实时决策 以优化工作流。它们具备高度的独立性、适应性与情境感知 ,因而可在最少人工干预下完成复杂操作。
自主型代理的关键区别在于其能够:
- 结合检索与行动 :既能像检索型代理那样获取信息 ,也能像任务型代理那样据此行动。
- 规划并自我调整 :可依据新信息或约束变化动态适配。
- 执行多步工作流 :将复杂任务拆解为子任务 ,迭代执行 并依据结果调整。
继续以 John 的诊所 为例。随着诊所业务繁忙,管理预约、取消与改期变得愈发吃力。任务型代理已能简化单个动作,但现在自主型代理 在极少监督下接管端到端的排班流程。其逐步工作方式如下:
- 受理与优先级排序(Intake and prioritization) :代理监控所有渠道(邮件、门户、电话录音转写),抽取病人偏好、紧急程度与专科需求,并按优先级排序。比如,一条取消会打开新时段,代理会即时匹配给一直等待相近时段的病人 X。
- 规划与优化(Planning and optimization) :审核全天日程,识别冲突或空档,构建优化方案------将低优先级就诊顺延 ,为紧急患者腾挪时段。
- 带反馈的执行(Execution with feedback) :自动向病人推送选项、更新日历、创建预约并发送确认。如偏好更改,则回环并细化动作。
- 实时适配(Real-time adaptation) :若医生临时请假,代理暂停新预约 、为受影响患者自动改期 并通知员工------除非需要人工介入,否则全流程自治处理。
- 持续学习(Continuous learning) :日终分析结果,更新病人偏好,并调整未来的优先级逻辑。
该自主型代理能规划、检索、决策、行动、适配与学习 ------而无需依赖预定义的固定流程。John 只需聚焦边界案例,其余由代理智能处理。
自主型代理代表着 AI 驱动流程自动化 的下一步。通过将检索式 AI 的能力(情境感知、实时检索细化)与任务执行 技能(预约排班、自动通知)相融合,自主型代理能够从根本上重塑业务流程与日常运营。
注(Note)
尽管自主型代理与业务流程自动化 的概念高度契合,但它们同样能为客户体验 带来新提升。以上述场景为例,病人 X 无需电话或邮件,可直接使用代理提供的对话式界面 (如诊所网站或 WhatsApp 渠道)。在此过程中,代理捕捉意图、在需要时追问补充信息 ,并在后台编排各系统执行任务,从而带来更顺畅的交互体验。
我们可以为代理设定不同程度的自主性 ;取舍取决于业务场景以及我们对解决方案准确度的信心。
小结(Summary)
AI 智能体已从基础自动化工具进化为复杂的自主系统,重塑业务运营与专业工作流。本文介绍了三种主要类型:
- 检索型代理 :以 Agentic RAG 强化知识获取;
- 任务型代理:自动化具体动作,如排班与邮件管理;
- 自主型代理 :将检索与执行结合,并以战略性决策优化复杂工作流。
针对每个用例部署合适类型的 AI 代理,是实现高影响力自动化与优化用户体验的关键。
从下一章开始,我们将更深入剖析 AI 智能体的各个组成部分,首先从**AI 编排(orchestration)**入手。
参考资料(References)
- DeepMind's AlphaGo: en.wikipedia.org/wiki/AlphaG...
- Autonomous agents: www.techtarget.com/searchenter...
- Reinforcement learning: www.tensorflow.org/agents/tuto...
- AGI: www.ibm.com/think/topic...