AI Agents 实战——AI Agents 的崛起

本章将回顾 AI 智能体 的演进历程,从早期的机器人流程自动化(RPA)到当今复杂的多智能体架构。我们将界定"什么才是真正的 AI 智能体",拆解其关键组成,并考察正在重塑全球各行各业的不同类型的 AI 智能体。

本章将涵盖以下主题:

  • 从 RPA 到 AI 智能体的演进
  • AI 智能体的定义
  • 不同类型的 AI 智能体
  • AI 智能体的组成部分

读完本章后,你将清晰理解 AI 智能体的演进、其关键组件,以及它们如何改变产业。

技术要求

你可以在本书配套的 GitHub 代码库获取本章的完整代码:github.com/PacktPublis...

从 RPA 到 AI 智能体的演进

从传统的基于规则 自动化到复杂的AI 驱动 智能体,这段旅程伴随着显著的技术进步。最初的自动化局限于僵化、预定义 的工作流;随着机器学习(ML)、强化学习(RL)与大型语言模型(LLM)的兴起,AI 智能体正变得更加自主、智能 ,并具备复杂决策能力。下面我们按阶段梳理近几十年的几种"代理"形态。

机器人流程自动化(RPA)

这是自动化的早期形态,聚焦于基于规则 的系统来执行预定义任务。此类系统遵循严格的逻辑流程,依据明确条件与结构化输入采取行动。它们对重复性流程 很有效,但缺乏灵活性、适应性 ,也难以处理非结构化数据 。例如,一个严格依据决策树运作、不会从交互中学习的规则型聊天机器人 ,在动态环境意外输入面前就捉襟见肘。

传统的 ML/RL 智能体

随着 AI 发展,基于机器学习强化学习 的智能体出现。它们可以从数据中学习,基于概率模型 做决策,并通过试错优化行为。我们分别展开:

  • 基于规则的代理 → 机器学习模型 :从静态规则集逐步过渡到能基于训练数据进行分类与预测 的模型。

    例如,早期的客服聊天机器人 依据决策树 回答用户,并结合命名实体识别机制进行路由。

    定义(Definition)
    命名实体识别(NER) 是一种自然语言处理任务,用于识别并归类文本中的关键信息,如人名、组织名、地点、日期及其他预定义实体。

  • 强化学习(RL)智能体 :通过与环境交互进行学习,为获得长期回报 而优化行动。RL 被广泛用于游戏、机器人复杂问题求解

    例如,DeepMind 的 AlphaGo 通过模拟数百万盘对弈并以试错优化策略,学会了围棋。

然而,这些早期智能体的主要短板泛化能力有限 。以 AlphaGo 为例:它虽在围棋上臻于化境,但其智能狭窄且领域特定 ------既不能把所学迁移到象棋等其他棋类,也无法胜任客服或排期这样的无关任务。这类 AI 在边界明确 的环境中表现卓越,但当规则、上下文或输入模式 发生变化就难以适应。

这暴露了 AI 的更广泛挑战:我们需要能跨领域推理 、理解模糊指令 ,并对动态环境 进行实时适应的智能体。

这正是 LLM 驱动智能体 登场之处。

基于 LLM 的智能体

随着 LLM 的出现,智能体在推理、规划与动态交互 上的能力显著增强。生成式 AI 使这些智能体不仅能回答问题,还能综合信息、自动化工作流 ,并与多种外部系统集成------本章后文将详细展开。

从高层看,基于 LLM 的智能体之所以强大,在于它们可利用诸如 GPT-4o 等模型,不仅理解上下文、检索相关信息 ,还可编排 一组组件,使智能体能与周边环境互动。这一"额外的智能层 "使现代 AI 智能体区别于既有的 RPA 系统 ,也区别于仅生成文本的 LLM 本身。

此外,一旦引入大型多模态模型 ,AI 智能体就能融合文本、语音、视觉、结构化数据 等多模态,以更贴近人类 的方式进行交互。

例如,一个基于 LLM 的零售助理 可以处理语音问询、分析商品图片,并实时查询库存数据库。

多智能体系统与自我复制智能体

AI 智能体演进中的一大突破是多智能体系统 :多个智能体协作 完成复杂任务。通过任务分解、专业化与并行执行 ,系统获得更高的效率与自主性。

例如,一个多智能体研究系统中:一名代理负责检索论文 ,另一名总结内容 ,第三名则为团队产出可执行洞见

此外,我们还可赋予代理以"自我复制 "能力:根据需求生成额外子代理 来处理子任务,实现弹性扩展。

例如,一个 AI 项目经理 可派生设计、编码、测试等专业子代理来协作完成软件开发流程。

AGI 智能体:下一道前沿

AI 演化的终极目标是通用人工智能(AGI)智能体 ------能够胜任人类所能完成的任何智力任务 的系统。AGI 智能体将整合推理、规划、记忆与自我改进 ,在广泛应用中自主运作。

在本书写作时,AGI 仍未达成普遍共识的标准形态,但我们正在见证 AI 智能体边界的持续拓展,令人振奋。

在全书中,我们主要聚焦于单体、基于 LLM 的智能体 ,并在第 7 章 涉及多智能体框架。接下来,让我们先给出 AI 智能体的定义。

AI 智能体的组成(Components of an AI agent)

AI 智能体 是一类基于软件的实体,能够感知其环境、围绕目标进行推理、做出决策并执行行动------常以自主 方式------并与外部系统交互。不同于遵循预编程规则的传统自动化,AI 智能体可以根据上下文动态适应 、利用外部工具 ,并引入记忆以随时间改进决策。

在技术层面上,AI 智能体由若干核心组件构成:

  • LLM :代理的推理引擎 ,提供自然语言理解、响应生成与任务规划。诸如 GPT-4、Claude、Gemini 等 LLM 使代理能够处理用户输入、生成回答,甚至进行多步推理
  • 系统消息(System message) :可将其视为代理的"使命宣言",为代理提供塑造行为的底层指令。除总体目标外,系统消息还定义语气、角色与约束(例如:"你是一名客服助理;请简洁并具同理心地回答")。
  • 记忆(Memory) :使代理能够跨时间保留上下文,提升连贯性与个性化。高层上可区分为短期 (基于会话)与长期 (存储过往交互的数据库)。此外还有多种细分记忆形态(短期、情景式、程序式等),将在第 4 章展开。
  • 工具(Tools) :将代理能力扩展到 LLM 之外。代理通过调用 API、数据库、搜索引擎、自动化脚本 等外部工具来获取实时数据、执行计算或触发外部流程。
  • 知识库(Knowledge base) :存放代理可引用的结构化/非结构化领域知识,包括 RAG 系统、专有企业数据或专业知识库,以增强决策能力。

图 2.1:AI 智能体的主要组件

在此之上,还需要一个编排层(orchestration layer)治理任务流转,确保各组件之间的协调。

注(Note)

AI 智能体可能有可能没有 用户界面。一方面,它们可以是面向用户 的对话式应用(如客服代理基于用户输入回应产品咨询);另一方面,它们也可在自动化流程中幕后运行 ------若由事件触发(例如:系统中新建工单即自动给出解决方案的代理),则无需 UI

举例:设想一所学校开发一名 AI 代理,帮助高中生掌握复杂的 STEM 主题。借助 LLM、记忆与编排 ,该代理可提供个性化辅导 、引用权威来源 ,并依据每位学生的学习需求自适应

图 2.2:AI 辅导助理示例

下面放大到各组件:

  • LLM :作为核心推理引擎------代理的"大脑 ",负责解释概念、解决问题、以对话方式回答学生问题------这得益于代理其他组件提供的附加信息。
    注(Note)
    需牢记:LLM 通常在公开/通用语料 上训练,若不进行锚定(grounding) ,往往缺乏对特定行业、专有数据或组织流程的深层上下文理解。因此,为特定用例提供外部知识库 能赋予代理领域知识 ,提升准确性、可信度与实用性
  • 系统消息 :定义代理的人设与行为边界,使其始终与教育目标对齐(我们不希望 AI 导师代做作业,而是通过支持学习过程来强化薄弱环节、聚焦特定学习点)。
  • 编排(Orchestration) :负责 UI、LLM 与各组件 之间的顺畅交互;智能路由请求,决定何时取外部数据、引用已存的学生表现历史,或直接由 LLM 生成内容。
  • 记忆(Memory) :追踪学生的会话以保持话题相关(短期记忆 );并保存过往交互以形成学生学业画像(长期记忆)。据此,代理可基于强弱项强化难点并优化教学计划。
  • 知识(Knowledge) :存放回答所需的相关资料,尤其在需要把模型锚定到一组文档(如校内手册)时尤为有用。
  • 工具与 API 集成 :为代理赋能行动 的所在。例如接入学生与学校日历 ,使其可按空闲与课表代订辅导课
  • UI(学生界面) :提供基于聊天的交互式学习体验,整合文本、示意图与分步解题

实际工作流程示例:

  1. 学生提出一则关于牛顿力学的复杂问题。
  2. LLM 处理查询,并利用既往交互与上下文记忆
  3. 编排器判断是否需引用参考资料、学生历史表现或进行外网检索。
  4. 如有需要,代理从学校参考手册中检索相关信息。
  5. LLM 依据学生水平定制讲解,并针对其历次考试薄弱点进行强化。
  6. 学生收到交互式回应:含分步讲解、可视化辅助与练习题。
  7. 代理进一步提供预约加课选项,依据日历中可用时段安排。
  8. 学生同意后,代理代为预约课程。

接下来一个关键问题是:代理如何知道何时调用特定知识或特定工具?

其强大之处在于:语言模型理解自然语言 。每当一个工具/组件(例如"预订会议"操作)被注册,它不仅仅由底层逻辑(如调用某 API 的 POST 请求)定义,还会配有一段自然语言描述 ,用清晰的文字说明该工具做什么返回什么 。LLM 会读取这些描述,并据此决定何时/如何 在任务中调用工具。本质上,模型不仅在执行代码,更在基于人类可读描述 对可用动作进行推理与选择

图 2.3:以自然语言描述代理组件的示例

因此,当用户提出请求时,代理(以 LLM 为"大脑")会遍历所有组件描述 ,判断应调用哪一个来解决问题。

实践中,我们可以为"如何调用合适的工具"定义不同策略 。例如,你可能希望某个工具总是先被调用 ,然后再由代理决定是否需要追加其他工具。应对这种规定次序 的一种方式,是直接写入系统消息。例如:

你是一名乐于助人的 AI 助手。你可以使用以下工具:

Tool A

Tool B

当你收到用户请求时,总是先调用 Tool A 。若用 Tool A 无法完成,再调用 Tool B。在尝试 Tool A 之前不要调用 Tool B

这些策略由编排器层进行定义与落实,第 3 章将进一步说明。

AI 智能体的不同类型(Different types of AI agents)

AI 智能体在复杂度与能力上各不相同,从简单的检索型 代理到完全自主 系统不一而足。理解这些类型有助于组织与开发者为特定用例选型。本节我们将把 AI 智能体归为三大类:检索型代理(retrieval agents)任务型代理(task agents)自主型代理(autonomous agents)

检索型代理(Retrieval agents)

在第 1 章中,我们介绍了 RAG(检索增强生成) :在生成回答前,LLM 会先从已正确嵌入并存储于 向量数据库(VectorDB) 的知识库中检索相关文档或片段。

检索型 AI 代理 建立在 RAG 的基础上,但引入了更先进的代理式行为 ,使其更具自主性与适应性 。实际上,我们在标准 RAG 流水线之上增加了一层智能与规划 ,让代理可以为"如何检索到最相关的信息"制定策略

注(Note)

检索型 AI 代理常被称为 agentic RAG 。在这种方法中,知识源被视为"工具(tools) ",即每个来源都配有一段自然语言描述 ,从而使代理可依据用户查询决定调用哪一来源 。一旦调用,具体检索机制与传统 RAG 相同;不同之处在于,新增的智能层可以判断当前信息是否足够 ,必要时继续调用其他来源。

示例 :我们希望为医生构建一个能快速检索治疗方案的 AI 助手。医生提问:"2 型糖尿病最新治疗方案有哪些?"来看两种方法的对比:

传统 RAG 方法:

  • 系统从数据库中检索最相关的三篇文章;
  • 模型从这些文章中抽取相关文本并生成概述性回答;
  • 若检索结果未能充分 回答问题,除非医生手动提交新查询,模型无法自行细化搜索。

图 2.4:传统 RAG 流水线

检索型 AI 代理方法:

  • 代理首先检索一组初始文档并进行分析
  • 它检测到部分研究已过时 ,于是细化检索条件 ,再取更近期的出版物;
  • 识别到针对某一特定药物 的信息缺口,进一步检索该药物的专项研究
  • 最终将所有检索来源综合 为一份完整答案,确保相关性与完备性

图 2.5:Agentic RAG 流水线

小结: 与传统 RAG 相比,agentic RAG 带来多方面改进:

  • 多步与递归检索 :不再一次性检索完毕,代理会迭代细化 搜索,将复杂问题分解为多步
  • 上下文感知 :保留交互记忆 ,可追问澄清动态调整检索策略;
  • 工具驱动的查询执行 :可与 API、数据库、向量搜索引擎 交互,获取实时结构化数据;
  • 自适应知识增强 :不同于静态检索,代理可从多来源 补充信息并进行语境化综合
  • 自主决策 :能判断何时 需要更多信息、选择 查询哪些来源、以及如何细化结果以获得最佳相关性。

检索型代理是最基础 的 AI 代理形态,但这层额外的智能已显著改善用户体验 。然而,AI 代理的真正威力在于将检索能力与可执行任务 相结合------这一点将在后续的任务型自主型代理中体现。

任务型代理(Task agents)

任务型代理 不止于信息检索,它们会执行具体动作 。此类代理旨在自动化工作流、替代用户的重复性操作。与检索型代理不同,任务型代理会根据用户指令外部触发器 执行预定义的动作

注(Note)

在谈到 AI 智能体时,你常会听到 tasks、tools、skills、plugins、functions、actions 等术语,常被交替使用来指代代理"能做事"的能力。不同的编排平台对术语也各不相同。下面做个简要厘清:

  • Tasks(任务) :定义要完成的目标,可从简单动作(如发送邮件)到包含多步操作的复杂流程。
  • Tools(工具) :提供执行任务的外部手段,如数据可视化工具 绘制图表,或机器翻译服务进行多语言翻译。
  • Plugins(插件) :通过与其他平台集成扩展能力,通常包含一组可在该平台上执行的操作/函数(如列出行、追加记录等)。
  • Functions(函数) :描述内部的操作方法;例如,正确定义的 get_weather 函数可以返回某地的实时天气。
  • Skills(技能) :指代理学到的熟练能力 ,通常以**声明式(自然语言)**方式定义;可将其视作仅在需要时被调用的"迷你提示词"。
  • Actions(行动) :代理针对特定输入或情境采取的具体步骤/操作 ,是其函数与技能的实时体现,会产生可观察的结果。

让我们继续看一个医疗 领域的示例,这次从全科诊所前台接待员 John 的视角出发。

John 需要处理大量预约 请求。病人通过电话、邮件与线上系统预约。处理临时取消改期非常耗时,也常导致排班出现空档。

John 一天的典型流程可能如下:

  1. 收到病人 X 的预约邮件 ,其中包含对日期/时间的偏好;
  2. 查询 相关专科医生的可用时段,尽量匹配病人偏好与最早可约时间;
  3. 无匹配 ,则回复 病人 X 寻求备选方案
  4. 双方最终确认 一个时段并创建预约

本质上,上述步骤就是 John 为达成目标(为医生与病人找到最优时间 )所需完成的一系列任务

当我们希望用 AI 智能体(更具体地说,任务型代理 )来映射并增强 业务流程时,一个良好实践是把人的任务 转化为代理的任务。例如,任务型代理可这样协助 John:

图 2.6:任务型代理如何执行一项任务
(提示:需要查看高清图?请在 next-gen Packt Reader 或本书的 PDF/ePub 版本中查看。购买本书可免费获得 next-gen Packt Reader。扫描二维码或访问 packtpub.com/unlock,搜索本书名称并确认版本。)

  • 自动扫描邮件 :代理读取来自病人 X 的邮件,提取关键信息(姓名与联系方式、偏好日期/时间、所需专科)。

  • 检查可用性 :代理调用诊所排班系统插件 (即我们为代理配备的工具),将病人的偏好与该专科医生最早可用时段进行匹配;若匹配,跳至步骤 5。

  • 生成备选并拟稿 :若无匹配 ,代理基于医生日程生成最优备选时段列表 ,并借助写作技能起草给病人 X 的回复邮件(由 John 审核后发送)。

  • 病人反馈:病人 X 提出新偏好,并且要么

    • 接受其一(进入步骤 5),要么
    • 请求更多选项 ,则代理重复上一步。
  • 落地预约与通知 :John 与病人 X 达成一致 后,代理再次使用上述插件在系统中创建预约 ,并通过邮件插件 发送确认邮件给病人 X;同时更新医生日历通知其预订信息。

图 2.7:面向诊所的任务型 AI 代理"解剖图"示例

如你所见,AI 代理就像 John 的助理 ,代为处理重复的排班任务 ,从而让他把精力集中在线下接待与服务上。

自主型代理(Autonomous agents)

自主型代理 是最先进的一类 AI 智能体。不同于在预设边界内运行的检索型任务型 代理,自主型代理能够战略性编排 多项任务与检索流程,实时决策 以优化工作流。它们具备高度的独立性、适应性与情境感知 ,因而可在最少人工干预下完成复杂操作。

自主型代理的关键区别在于其能够:

  • 结合检索与行动 :既能像检索型代理那样获取信息 ,也能像任务型代理那样据此行动
  • 规划并自我调整 :可依据新信息或约束变化动态适配
  • 执行多步工作流 :将复杂任务拆解为子任务迭代执行 并依据结果调整

继续以 John 的诊所 为例。随着诊所业务繁忙,管理预约、取消与改期变得愈发吃力。任务型代理已能简化单个动作,但现在自主型代理极少监督下接管端到端的排班流程。其逐步工作方式如下:

  1. 受理与优先级排序(Intake and prioritization) :代理监控所有渠道(邮件、门户、电话录音转写),抽取病人偏好、紧急程度与专科需求,并按优先级排序。比如,一条取消会打开新时段,代理会即时匹配给一直等待相近时段的病人 X。
  2. 规划与优化(Planning and optimization) :审核全天日程,识别冲突或空档,构建优化方案------将低优先级就诊顺延 ,为紧急患者腾挪时段
  3. 带反馈的执行(Execution with feedback) :自动向病人推送选项、更新日历、创建预约并发送确认。如偏好更改,则回环并细化动作。
  4. 实时适配(Real-time adaptation) :若医生临时请假,代理暂停新预约 、为受影响患者自动改期通知员工------除非需要人工介入,否则全流程自治处理。
  5. 持续学习(Continuous learning) :日终分析结果,更新病人偏好,并调整未来的优先级逻辑。

该自主型代理能规划、检索、决策、行动、适配与学习 ------而无需依赖预定义的固定流程。John 只需聚焦边界案例,其余由代理智能处理。

自主型代理代表着 AI 驱动流程自动化 的下一步。通过将检索式 AI 的能力(情境感知、实时检索细化)与任务执行 技能(预约排班、自动通知)相融合,自主型代理能够从根本上重塑业务流程与日常运营。

注(Note)

尽管自主型代理与业务流程自动化 的概念高度契合,但它们同样能为客户体验 带来新提升。以上述场景为例,病人 X 无需电话或邮件,可直接使用代理提供的对话式界面 (如诊所网站或 WhatsApp 渠道)。在此过程中,代理捕捉意图、在需要时追问补充信息 ,并在后台编排各系统执行任务,从而带来更顺畅的交互体验。

我们可以为代理设定不同程度的自主性 ;取舍取决于业务场景以及我们对解决方案准确度的信心

小结(Summary)

AI 智能体已从基础自动化工具进化为复杂的自主系统,重塑业务运营与专业工作流。本文介绍了三种主要类型:

  • 检索型代理 :以 Agentic RAG 强化知识获取;
  • 任务型代理:自动化具体动作,如排班与邮件管理;
  • 自主型代理 :将检索与执行结合,并以战略性决策优化复杂工作流。

针对每个用例部署合适类型的 AI 代理,是实现高影响力自动化与优化用户体验的关键。

从下一章开始,我们将更深入剖析 AI 智能体的各个组成部分,首先从**AI 编排(orchestration)**入手。

参考资料(References)

相关推荐
摄影图2 小时前
科技互联网宣传图片素材推荐:从灵感碎片到落地场景的实用分享
科技·aigc·插画
大模型教程3 小时前
3 张动图秒懂 A2A 协议:打造高效 Multi-Agent 协同机制
程序员·llm·agent
大模型教程3 小时前
RAG 系统架构设计模式介绍
程序员·llm·agent
奇舞精选3 小时前
知识库(Knowledge Base)与知识图谱(Knowledge Graph)到底该怎么选?
aigc
奇舞精选3 小时前
LangChain 1.0 变革
langchain·agent
AI大模型4 小时前
Google 官方白皮书Prompt Engineering 深度解读
程序员·llm·agent
奇舞精选4 小时前
Agent Skills:AI 能力扩展的新范式
agent
AI大模型4 小时前
谷歌这本 68 页提示词手册,才是 Gemini 3 Pro 的完全体「附官方内功心法」
程序员·llm·agent
Nturmoils4 小时前
基于Rokid CXR-M SDK实现AR智能助手应用:让AI大模型走进AR眼镜
人工智能·aigc
AI袋鼠帝4 小时前
国内最强AI IDE:Trae Solo中国版来了!完全免费~
aigc·ai编程·trae