是什么让一个AI系统成为智能体(Agent)?
简单来说,一个AI智能体是旨在感知其环境并采取行动以实现特定目标的系统。它是从标准大语言模型(LLM)演变而来的,增强了规划、使用工具以及与周围环境互动的能力。您可以将智能体AI(Agentic AI)想象成一个在工作中不断学习的智能助手。它遵循一个简单的五步循环来完成任务(见图1):
- 获取任务:您给它一个目标,比如"安排我的日程"。
- 扫描场景:它通过读取邮件、检查日历和访问联系人来收集所有必要信息,以了解当前情况。
- 周密思考:它通过考虑实现目标的最佳方法来设计行动计划。
- 采取行动:它执行计划,发送邀请、安排会议并更新您的日历。
- 学习与进步:它观察成功的结果并相应地进行调整。例如,如果一个会议被重新安排,系统会从该事件中学习,以提升其未来的表现。

图1:智能体AI如同一个智能助手,通过经验持续学习。它通过一个直接的五步循环来完成任务。
智能体正以惊人的速度日益普及。根据最近的研究,大多数大型IT公司都在积极使用这些智能体,其中五分之一是在过去一年内才开始使用的。金融市场也注意到了这一点。到2024年底,AI智能体初创公司已筹集了超过20亿美元,市场估值为52亿美元。预计到2034年,其市场价值将爆炸式增长至近2000亿美元。简而言之,所有迹象都表明,AI智能体将在我们未来的经济中扮演至关重要的角色。
在短短两年内,AI的范式发生了巨大变化,从简单的自动化转向了复杂的自主系统(见图2)。最初,工作流程依赖于基本的提示和触发器来通过大语言模型(LLM)处理数据。随后,检索增强生成(RAG)技术通过将模型基于事实信息进行 grounding,提升了系统的可靠性。接着,我们看到了能够使用各种工具的独立AI智能体的发展。今天,我们正在进入智能体AI(Agentic AI)的时代,即由一个专业智能体团队协同工作以实现复杂目标,这标志着AI协作能力的一次重大飞跃。
图2:从LLM到RAG,再到Agentic RAG,最后到Agentic AI的演变。
本书旨在探讨专业智能体如何协同合作以实现复杂设计模式,您将在每一章中看到一种协作与交互的范式。 在此之前,让我们先来看一些涵盖不同智能体复杂程度的例子(见图3)。
等级 0:核心推理引擎
虽然大语言模型(LLM)本身不是一个智能体,但它可以作为一个基础智能体系统的核心推理引擎。在"等级0"的配置中,LLM在没有工具、记忆或环境互动的情况下运行,仅根据其预训练的知识进行响应。它的优势在于利用其广泛的训练数据来解释已有的概念。这种强大的内部推理能力的代价是完全缺乏对当前事件的认知。例如,如果2025年奥斯卡"最佳影片奖"得主的信息超出了其预训练知识范围,它将无法回答。
等级 1:互联的问题解决者
在这个等级,LLM通过连接并利用外部工具,成为了一个功能性的智能体。其解决问题的能力不再局限于预训练的知识。相反,它可以执行一系列操作,从互联网(通过搜索)或数据库(通过检索增强生成,或RAG)等来源收集和处理信息。详细信息请参阅第14章。
例如,为了寻找新的电视节目,智能体认识到需要最新信息,使用搜索工具找到它,然后综合结果。关键的是,它还可以使用专门的工具以获得更高的准确性,比如调用金融API来获取苹果公司(AAPL)的实时股价。这种跨越多步骤与外部世界互动的能力是等级1智能体的核心功能。
等级 2:战略性的问题解决者
在这个等级,智能体的能力显著扩展,涵盖了战略规划、主动协助和自我提升,其中提示工程(prompt engineering)和上下文工程(context engineering)是核心赋能技能。
首先,智能体超越了单一工具的使用,通过战略性问题解决来处理复杂的多部分问题。在执行一系列操作时,它会主动进行上下文工程 :这是一个战略性过程,为每一步选择、打包和管理最相关的信息。例如,为了在两个地点之间找到一家咖啡店,它首先使用地图工具。然后,它会"工程化"这个输出,策划一个简短、集中的上下文------也许只是一串街道名称列表------以输入到本地搜索工具中,从而避免认知过载,并确保第二步高效而准确。为了从AI获得最高的准确性,必须为其提供一个简短、集中且强大的上下文。上下文工程就是通过战略性地从所有可用来源中选择、打包和管理最关键的信息来实现这一目标的学科。它有效地管理模型的有限注意力,以防止过载并确保在任何给定任务上都能实现高质量、高效率的表现。 详细信息请参阅附录A。
这个等级带来了主动和持续的操作。一个连接到您电子邮件的旅行助手展示了这一点,它从一封冗长的航班确认邮件中进行上下文工程;它只选择关键细节(航班号、日期、地点)打包起来,用于后续调用您的日历和天气API的工具。
在软件工程等专业领域,智能体通过应用这门学科来管理整个工作流程。当分配一个错误报告时,它会读取报告并访问代码库,然后战略性地将这些大量信息源工程化为一个有效、集中的上下文,使其能够高效地编写、测试并提交正确的代码补丁。
最后,智能体通过优化自身的上下文工程流程来实现自我提升。当它就如何改进提示寻求反馈时,它正在学习如何更好地策划其初始输入。这使其能够自动改进未来任务中打包信息的方式,从而创建一个强大的自动化反馈循环,随着时间的推移提高其准确性和效率。详细信息请参阅第17章。
图3:展示智能体复杂性范围的各种实例。
等级 3:协作式多智能体系统的兴起
在等级3,我们看到了AI发展的一次重大范式转变,从追求单一、全能的超级智能体,转向了复杂的协作式多智能体系统的兴起。从本质上讲,这种方法认识到复杂的挑战通常不是由一个通才解决的,而是由一个专家团队协同工作来解决的。这种模式直接模仿了人类组织的结构,其中不同部门被分配特定角色并协作以应对多方面的目标。这样一个系统的集体力量在于这种劳动分工和通过协调努力产生的协同效应。详细信息请参阅第7章。
为了将这个概念变为现实,可以想象一下推出一款新产品的复杂工作流程。与其让一个智能体试图处理所有方面,不如让一个"项目经理"智能体作为中心协调者。这个管理者将通过将任务分配给其他专业智能体来协调整个过程:一个"市场研究"智能体收集消费者数据,一个"产品设计"智能体开发概念,以及一个"营销"智能体制作宣传材料。他们成功的关键在于它们之间无缝的沟通和信息共享,确保所有个体努力都与实现集体目标保持一致。
虽然这种基于团队的自主自动化愿景已在开发中,但承认当前的障碍很重要。这类多智能体系统的有效性目前受到其所使用的LLM推理能力的限制。此外,它们真正地相互学习并作为一个有凝聚力的整体进行改进的能力仍处于早期阶段。克服这些技术瓶颈是关键的下一步,这样做将释放这一等级的深远潜力:实现从头到尾自动化整个业务工作流程的能力。
智能体的未来:五大假说
AI智能体的开发正在软件自动化、科学研究和客户服务等领域以前所未有的速度发展。尽管目前的系统令人印象深刻,但这仅仅是个开始。下一波创新浪潮可能会专注于使智能体更可靠、更具协作性,并更深入地融入我们的生活。以下是关于未来的五个主要假说(见图4)。
假说 1:通用型智能体的出现
第一个假说认为,AI智能体将从狭隘的专家演变为真正的通用型智能体,能够高度可靠地管理复杂、模糊和长期的目标。例如,您可以给智能体一个简单的提示,如"为我的公司策划下个季度在里斯本举行的30人异地团建"。该智能体将在数周内管理整个项目,处理从预算审批、航班谈判到场地选择以及根据员工反馈创建详细行程的所有事宜,并同时提供定期更新。实现这种级别的自主性将需要AI在推理、记忆和近乎完美的可靠性方面取得根本性突破。另一种并非相互排斥的方法是小语言模型(SLM)的兴起。这种"乐高式"概念涉及由小型的专业专家智能体组成系统,而不是扩展单一的庞大模型。这种方法有望使系统更便宜、调试更快、部署更容易。最终,大型通用模型的发展和小型专业模型的组合都是可行的前进道路,它们甚至可以互为补充。
假说 2:深度个性化与主动目标发现
第二个假说断言,智能体将成为深度个性化和主动的合作伙伴。我们正在见证一类新型智能体的出现:主动的合作伙伴。通过学习您独特的模式和目标,这些系统正开始从仅仅听从命令转变为预测您的需求。当AI系统不仅仅是响应聊天或指令时,它们就作为智能体在运作。它们代表用户发起并执行任务,在此过程中积极协作。这已超越了简单的任务执行,进入了主动目标发现的领域。
例如,如果您正在探索可持续能源,智能体可能会识别出您的潜在目标,并通过建议课程或总结研究报告来主动支持它。虽然这些系统仍在发展中,但其发展轨迹是明确的。它们将变得越来越主动,学会在高度确信其行动会有所帮助时主动代表您采取行动。最终,智能体将成为不可或缺的盟友,帮助您发现并实现您尚未完全明确的抱负。
图4:关于智能体未来的五个假说
假说 3:具身化与物理世界互动
该假说预见智能体将挣脱纯数字的束缚,在物理世界中运作。通过将智能体AI与机器人技术相结合,我们将看到"具身智能体"的兴起。您可能不再只是预订一个勤杂工,而是让您的家庭智能体修理漏水的水龙头。该智能体将使用其视觉传感器感知问题,访问管道知识库以制定计划,然后精确控制其机械臂进行修复。这将是连接数字智能与物理行动的巨大一步,并将改变从制造业、物流到老年护理和家庭维护的方方面面。
假说 4:智能体驱动的经济
第四个假说认为,高度自主的智能体将成为经济的积极参与者,创造新的市场和商业模式。我们可以看到智能体作为独立的经济实体行事,其任务是最大化特定结果,如利润。一个企业家可以启动一个智能体来运营整个电子商务业务。该智能体将通过分析社交媒体来识别热门产品,生成营销文案和视觉材料,通过与其他自动化系统互动来管理供应链物流,并根据实时需求动态调整价格。这种转变将创造一个全新的、超高效的"智能体经济",其运行速度和规模是人类无法直接管理的。
假说 5:目标驱动的可变形多智能体系统
该假说断言,将会出现一种并非基于明确编程,而是基于声明目标的智能系统。用户只需陈述期望的结果,系统就能自主地找出如何实现它。这标志着向可变形多智能体系统的根本性转变,该系统能够在个体和集体层面实现真正的自我完善。
这个系统将是一个动态实体,而不是单个智能体。它将有能力分析自身表现并修改其多智能体工作队伍的拓扑结构,根据需要创建、复制或移除智能体,以组成最适合当前任务的团队。这种演变发生在多个层面:
- 架构修改:在最深层次,单个智能体可以重写自己的源代码并重新构建其内部结构以提高效率,正如最初的假说所述。
- 指令修改:在更高层次,系统持续执行自动化的提示工程和上下文工程。它不断优化给予每个智能体的指令和信息,确保它们在没有任何人工干预的情况下以最佳指导运行。
例如,一个企业家只需声明意图:"推出一个成功的电子商务业务,销售手工咖啡。" 系统无需进一步编程就会立即行动起来。它最初可能会生成一个"市场研究"智能体和一个"品牌建设"智能体。根据初步发现,它可能决定移除品牌建设智能体,并生成三个新的专业智能体:"标志设计"智能体、"网店平台"智能体和"供应链"智能体。它会不断调整它们的内部提示以获得更好的性能。如果网店智能体成为瓶颈,系统可能会将其复制成三个并行的智能体来处理网站的不同部分,从而有效地动态重构自身结构以最好地实现声明的目标。
结论
从本质上讲,AI智能体代表了从传统模型的重大飞跃,它作为一个自主系统,能够感知、规划和行动以实现特定目标。这项技术正从使用单一工具的智能体,发展到能够应对多方面目标的复杂协作式多智能体系统。未来的假说预测了通用型、个性化甚至物理具身化的智能体的出现,它们将成为经济的积极参与者。这一持续的发展标志着一个重大的范式转变,即朝着能够自动化整个工作流程并从根本上重新定义我们与技术关系的、自我完善的目标驱动系统迈进。