智能体设计模式:构建智能系统的实践指南

前言

欢迎来到《智能体设计模式:构建智能系统的实践指南》。

什么是智能体化系统?

本质上,智能体化系统是一种计算实体,旨在感知其环境(包括数字环境和潜在的物理环境),基于这些感知和一组预定义或习得的目标做出明智决策,并自主执行行动以实现这些目标。与遵循严格的分步指令的传统软件不同,智能体具有一定程度的灵活性和主动性。

想象你需要一个系统来管理客户咨询。传统系统可能会遵循固定的脚本。然而,智能体化系统可以感知客户查询的细微差别,访问知识库,与其他内部系统(如订单管理系统)交互,可能会提出澄清问题,并主动解决问题,甚至可能预测未来的需求。这些智能体在你的应用程序基础设施的画布上运行,利用可供它们使用的服务和数据。

智能体化系统通常具有以下特征:自主性,允许它们在没有持续人类监督的情况下行动;主动性,主动发起朝向目标的行动;反应性,有效响应环境变化。它们从根本上是以目标为导向的,不断朝着目标努力。一项关键能力是工具使用,使它们能够与外部应用程序编程接口(API)、数据库或服务交互------有效地超越其直接画布。它们拥有记忆,能够在交互中保留信息,并能够与用户、其他系统或甚至在相同或相连画布上运行的其他智能体进行通信。

要有效实现这些特征,需要应对显著的复杂性。智能体如何在其画布上的多个步骤中维持状态?它如何决定何时以及如何使用工具?如何管理不同智能体之间的通信?如何在系统中构建弹性以处理意外结果或错误?

为什么模式在智能体开发中很重要?

这种复杂性正是智能体化设计模式不可或缺的原因。它们不是僵化的规则,而是经过实践检验的模板或蓝图,为智能体领域中的标准设计和实现挑战提供了经过验证的方法。通过识别和应用这些设计模式,你可以获得能够增强你在画布上构建的智能体的结构、可维护性、可靠性和效率的解决方案。

使用设计模式有助于你避免为诸如管理对话流、集成外部功能或协调多个智能体行动等任务重新发明基本解决方案。它们提供了一种通用语言和结构,使你的智能体逻辑更清晰,更容易被他人(以及未来的你自己)理解和维护。实施为错误处理或状态管理设计的模式直接有助于构建更稳健和可靠的系统。利用这些既定方法可以加速你的开发过程,让你能够专注于应用程序的独特方面,而不是智能体行为的基础机制。

本书提炼了21个关键设计模式,它们代表了在各种技术画布上构建复杂智能体的基本构建块和技术。

理解并应用这些模式将显著提升你有效设计和实现智能系统的能力

什么使人工智能系统成为智能体?

简单来说,人工智能智能体是一个旨在感知其环境并采取行动以实现特定目标的系统。它是标准大语言模型的进化,增强了规划、使用工具和与周围环境交互的能力。将智能体化人工智能视为一个在工作中学习的智能助手。它通过一个简单的五步循环来完成任务(见图1):

  1. 接受任务:你给它一个目标,比如"整理我的日程安排"。
  2. 扫描场景:它收集所有必要的信息------阅读电子邮件、查看日历和访问联系人------以了解正在发生的事情。
  3. 思考规划:它通过考虑实现目标的最佳方法来制定行动计划。
  4. 采取行动:它通过发送邀请、安排会议和更新你的日历来执行计划。
  5. 学习并改进:它观察成功的结果并相应地调整。例如,如果会议被重新安排,系统会从这个事件中学习,以提高其未来的表现。
智能体化人工智能问题解决流程
  1. 接受任务
  2. 扫描场景
  3. 思考规划
  4. 采取行动
  5. 学习并改进

智能体正以惊人的速度变得越来越受欢迎。根据最近的研究,大多数大型信息技术(IT)公司正在积极使用这些智能体,其中五分之一的公司在过去一年才开始使用。金融市场也在关注。到2024年底,人工智能智能体初创公司已筹集了超过20亿美元,市场估值达到52亿美元。预计到2034年,其价值将激增到近2000亿美元。简而言之,所有迹象都表明人工智能智能体将在我们未来的经济中扮演重要角色。

在短短两年内,人工智能范式发生了巨大转变,从简单的自动化转向复杂的自主系统(见图2)。最初,工作流依靠基本提示和触发器来使用大语言模型处理数据。随后,检索增强生成(RAG)通过将模型基于事实信息来增强可靠性。然后,我们看到了能够使用各种工具的单个人工智能智能体的发展。如今,我们正进入智能体化人工智能时代------在这个时代,一组专门的智能体协同工作以实现复杂目标,标志着人工智能协作能力的重大飞跃。

图1:智能体化人工智能充当智能助手,通过经验不断学习。它通过一个简单的五步循环来完成任务。

图2:从大语言模型到检索增强生成(RAG),再到智能体化检索增强生成(Agentic RAG),最后到智能体化人工智能的转变。

本书的目的是讨论专门的智能体如何协同工作和协作以实现复杂目标,并且你将在每个章节中看到一种协作和交互范式。

在此之前,让我们考察涵盖智能体复杂性范围的示例(见图3)。

0级:核心推理引擎

虽然大语言模型本身不是智能体,但它可以作为基本智能体化系统的推理核心。在"0级"配置中,大语言模型在没有工具、记忆或环境交互的情况下运行,仅基于其预训练知识进行响应。其优势在于利用其广泛的训练数据来解释已建立的概念。这种强大的内部推理的代价是完全缺乏时事意识。例如,如果2025年奥斯卡"最佳影片"得主的信息不在其预训练知识范围内,它将无法说出该奖项的得主。

1级:连接的问题解决者

在这个级别,大语言模型通过连接并利用外部工具成为功能齐全的智能体。其问题解决不再局限于其预训练知识。相反,它可以执行一系列行动来从诸如互联网(通过搜索)或数据库(通过检索增强生成,即RAG)等来源收集和处理信息。有关详细信息,请参阅第14章。

例如,要查找新的电视节目,智能体会认识到需要当前信息,使用搜索工具来查找,然后综合结果。至关重要的是,它还可以使用专门的工具来提高准确性,例如调用金融应用程序编程接口(API)以获取苹果公司(AAPL)的实时股价。这种跨多个步骤与外部世界交互的能力是1级智能体的核心能力。

2级:战略问题解决者

在这个级别,智能体的能力显著扩展,包括战略规划、主动协助和自我改进,其中提示工程和上下文工程是核心支持技能。

首先,智能体超越单一工具的使用,通过战略问题解决来处理复杂的、多部分的问题。在执行一系列行动时,它积极

执行上下文工程:为每个步骤选择、打包和管理最相关信息的战略过程。例如,要找到两个地点之间的咖啡店,它首先使用地图工具。然后,它对这个输出进行工程处理,整理一个简短、集中的上下文------可能只是街道名称列表------以输入到本地搜索工具,防止认知过载,并确保第二步高效且准确。要从人工智能获得最大的准确性,必须给它一个简短、集中且有力的上下文。上下文工程是通过从所有可用来源中战略地选择、打包和管理最关键的信息来实现这一目标的学科。它有效地管理模型有限的注意力,以防止过载,并确保在任何给定任务上的高质量、高效表现。有关详细信息,请参阅附录A。

这个级别带来了主动和持续的操作。与你的电子邮件链接的旅行助手通过从冗长的航班确认电子邮件中构建上下文来展示这一点;它只选择关键细节(航班号、日期、地点)来打包,以便后续调用你的日历和天气应用程序编程接口(API)。

在软件工程等专业领域,智能体通过应用这一学科来管理整个工作流。当分配到一个错误报告时,它阅读报告并访问代码库,然后战略性地将这些大量信息源构建成一个强大、集中的上下文,使它能够高效地编写、测试和提交正确的代码补丁。

最后,智能体通过改进自己的上下文工程流程来实现自我改进。当它询问关于如何改进提示的反馈时,它正在学习如何更好地整理其初始输入。这使它能够自动改进未来任务的信息打包方式,创建一个强大的、自动化的反馈循环,随着时间的推移提高其准确性和效率。有关详细信息,请参阅第17章。

3级:协作式多智能体系统的兴起

图3:展示智能体复杂性范围的各种示例。

在3级,我们看到人工智能发展的重大范式转变------从追求单一、全能的超级智能体,转向复杂、协作的多智能体系统的兴起。本质上,这种方法认识到,复杂的挑战通常最好不是由单一的通才解决,而是由一组协同工作的专家解决。这种模型直接模仿人类组织的结构------在人类组织中,不同的部门被分配特定的角色,并协作解决多方面的目标。这种系统的集体优势在于这种劳动分工和通过协调努力创造的协同效应。有关详细信息,请参阅第7章。

为了使这个概念具体化,考虑推出新产品的复杂工作流。与其让一个智能体尝试处理各个方面,不如让一个"项目经理"智能体担任中央协调员。该经理可以通过将任务委派给其他专门的智能体来协调整个过程:一个"市场研究"智能体收集消费者数据,一个"产品设计"智能体开发概念,一个"营销"智能体制作促销材料。它们成功的关键在于它们之间的无缝沟通和信息共享,确保所有个人努力都朝着实现集体目标的方向对齐。

虽然这种自主的、基于团队的自动化愿景已经在开发中,但必须承认当前的障碍。这种多智能体系统的有效性目前受到它们所使用的大语言模型的推理限制。此外,它们真正相互学习并作为一个整体改进的能力仍处于早期阶段。克服这些技术瓶颈是关键的下一步,而这样做将释放这个级别的深远前景:能够从头到尾自动化整个业务工作流。

智能体的未来:五大假设

人工智能智能体的发展正在软件自动化、科学研究和客户服务等领域以前所未有的速度推进。虽然当前的系统令人印象深刻,但它们只是一个开始。下一波创新可能会集中在使智能体更可靠、更协作,并更深入地融入我们的生活。以下是关于未来的五个主要假设(见图4)。

假设1:通用智能体的出现

第一个假设是,人工智能智能体将从狭隘的专家演变为真正的通用智能体,能够以高可靠性管理复杂、模糊和长期的目标。例如,你可以给智能体一个简单的提示,比如"为我公司下一季度在里斯本举办的30人场外务虚会制定计划"。然后,智能体将在几周内管理整个项目,处理从预算批准、航班谈判到场地选择以及根据员工反馈创建详细行程的一切事务,同时提供定期更新。实现这种级别的自主性需要人工智能推理、记忆和近乎完美的可靠性方面的根本性突破。另一种但并非相互排斥的方法是小型语言模型(SLM)的兴起。这种"乐高式"概念涉及由小型、专门的专家智能体组成系统,而不是扩大单一的整体模型。这种方法有望使系统更便宜、调试更快且部署更容易。归根结底,大型通用模型的开发和小型专门模型的组合都是可行的前进道路,它们甚至可以相互补充。

假设2:深度个性化和主动目标发现

第二个假设认为,智能体将成为深度个性化和主动的合作伙伴。我们正在见证一类新型智能体的出现:主动合作伙伴。通过从你的独特模式和目标中学习,这些系统正开始从仅仅遵循指令转向预测你的需求。当人工智能系统

超越简单地响应聊天或指令时,它们就作为智能体运行。它们代表用户发起并执行任务,在过程中积极协作。这超越了简单的任务执行,进入了主动目标发现的领域。

例如,如果你正在探索可持续能源,智能体可能会识别你的潜在目标,并通过建议课程或总结研究来主动支持它。虽然这些系统仍在开发中,但它们的发展轨迹是明确的。它们将变得越来越主动,当高度确信某个行动会有帮助时,学会代表你采取主动。归根结底,智能体成为一个不可或缺的盟友,帮助你发现并实现你尚未完全阐明的抱负。

假设3:实体化与物理世界交互

这个假设预见智能体将摆脱纯粹的数字限制,在物理世界中运行。通过将智能体化人工智能与机器人技术集成,我们将看到"实体化智能体"的兴起。与其只是预约一名杂工,你不如让你的家庭智能体修理漏水的水龙头。智能体将使用其视觉传感器感知问题,

访问管道知识库以制定计划,然后精确控制其机器人操纵器执行修理。这将代表一个里程碑式的步骤,弥合数字智能与物理行动之间的差距,并改变从制造业、物流到养老护理和家庭维护的一切。

假设4:智能体驱动的经济

第四个假设是,高度自主的智能体将成为经济的积极参与者,创造新的市场和商业模式。我们可能会看到智能体作为独立的经济实体运作,其任务是最大化特定结果(例如利润)。企业家可以推出一个智能体来运营整个电子商务业务。该智能体将通过分析社交媒体识别热门产品,生成营销文案和视觉效果,通过与其他自动化系统交互管理供应链物流,并根据实时需求动态调整价格。这种转变将创建一个新的、高效的"智能体经济"------其运行速度和规模是人类无法直接管理的。

假设5:目标驱动的变形多智能体系统

这个假设提出,将出现不是从明确编程而是从声明的目标运行的智能系统。用户只需说明期望的结果,系统就会自主找出如何实现它。这标志着向能够在个人和集体层面真正自我改进的变形多智能体系统的根本性转变。

这个系统将是一个动态实体,而不是单个智能体。它将有能力分析自己的表现并修改其多智能体劳动力的拓扑结构,根据需要创建、复制或移除智能体,以形成最有效的团队来完成手头的任务。这种进化发生在多个层面:

  • 架构修改:在最深层次,单个智能体可以重写自己的源代码并重新架构其内部结构以提高效率,如最初的假设所述。
  • 指令修改:在更高层次,系统不断执行自动提示工程和上下文工程。它改进给每个智能体的指令和信息,确保它们在没有任何人类干预的情况下以最佳指导运行。

例如,企业家只需声明意图:"推出一家成功的电子商务企业,销售手工咖啡。"无需进一步编程,系统就会开始行动。它最初可能会生成一个"市场研究"智能体和一个"品牌推广"智能体。根据初步发现,它可能决定移除品牌推广智能体,并生成三个新的专门智能体:一个"标志设计"智能体、一个"网店平台"智能体和一个"供应链"智能体。它将不断调整它们的内部提示以获得更好的表现。如果网店智能体成为瓶颈,系统可能会将其复制为三个并行智能体,分别处理网站的不同部分,有效地实时重新架构自己的结构以最好地实现声明的目标。

结论

本质上,人工智能智能体代表了与传统模型的重大飞跃,作为一个自主系统,能够感知、规划和采取行动以实现特定目标。这项技术的发展正从单一的、使用工具的智能体,迈向能够处理多方面目标的复杂、协作的多智能体系统。未来的假设预测通用、个性化甚至物理实体化的智能体将成为经济的积极参与者。这种持续的发展标志着向自我改进、目标驱动的系统的重大范式转变------这些系统有望自动化整个工作流,并从根本上重新定义我们与技术的关系。

参考文献

  1. LangChain关于LCEL的文档:https://python.langchain.com/v0.2/docs/core_modules/expression_language/
  2. LangGraph文档:https://langchain-ai.github.io/langgraph/
  3. 提示工程指南 - 提示链:https://www.promptingguide.ai/techniques/chaining
  4. OpenAI应用程序编程接口(API)文档(一般提示概念):https://platform.openai.com/docs/guides/gpt/prompting
  5. Crew AI文档(任务和流程):https://docs.crewai.com/
  6. 谷歌人工智能开发者(提示指南):https://cloud.google.com/discover/what-is-prompt-engineering?hl=en
  7. Vertex提示优化器:https://cloud.google.com/vertex-ai/generative-ai/docs/learn/prompts/prompt-optimizer
相关推荐
骚戴2 小时前
架构视角:Gemini 3.0 Pro 原生多模态能力的边界与工程落地
人工智能·大模型·llm·api·ai gateway
2401_841495642 小时前
【自然语言处理】汉语语料库建设的深层困境与现实挑战
人工智能·自然语言处理·语料库·标注·汉语语料库·中文信息处理·语料
zhaodiandiandian2 小时前
AI赋能医学教育:从知识传递到能力塑造的革命
人工智能
图图大恼3 小时前
在iOS上体验Open-AutoGLM:从安装到流畅操作的完整指南
人工智能·ios·agent
SakuraOnTheWay3 小时前
玩转n8n | 我用n8n+AI把枯燥论文变成了手绘海报(附Prompt技巧)
人工智能
Maynor9963 小时前
Vibe Coding:AI驱动的编程新范式
人工智能
AiMagicGaGa3 小时前
AIGC 时代的“机器写作”:为何 AI 检测 (AI Detector) 已成为刚需?
人工智能·自然语言处理·aigc
数据的世界013 小时前
重构智慧书-第14条:现实与风度
人工智能
2401_841495643 小时前
【自然语言处理】语义基石:WordNet与知网赋能自然语言处理的深层逻辑与实践路径
人工智能·自然语言处理·机器翻译·信息检索·情感分析·知识问答·词义消歧