AI智能代理(AI agents)、智能代理AI(Agentic AI)、智能代理架构(Agentic architectures)、智能代理工作流(Agentic workflows)。智能代理无处不在。但它们究竟是什么?它们真的能做什么?
新技术总是伴随着混杂的术语、过度期望和自封的网络专家。在本文中,我们将剥离AI智能代理周围的噪音和炒作,解释和说明智能代理AI的一个关键原则:智能代理工作流。
智能代理完全靠自己并不能做太多事情。它们需要被赋予角色、目标和实现目标的结构。这就是工作流发挥作用的地方。
理解智能代理工作流可以帮助你了解AI智能代理如何以及为什么以特定方式运作。为了帮助你理解,我们将介绍AI智能代理的关键组成部分,给出智能代理工作流的简明定义,解释什么使工作流具有代理性,详细说明智能代理工作流中的关键重复模式,详述真实世界的示例和用例,并诚实地概述使用智能代理工作流的优势和挑战。
什么是AI智能代理?
AI智能代理是将大语言模型(LLM)用于推理和决策的系统,结合了与现实世界交互的工具,使其能够在有限的人类参与下完成复杂任务。智能代理被分配特定角色,并被赋予不同程度的自主权来实现其最终目标。它们还配备了记忆功能,使其能够从过去的经验中学习并随时间提高性能。
要更深入地了解AI智能代理、它们的历史和构建工具,请查看我们最近的博客文章《简化的智能代理:AI背景下的含义》。
为了更好地理解AI智能代理如何融入智能代理工作流,我们将探讨AI智能代理的核心组成部分。
AI智能代理的组成部分
尽管AI智能代理被设计为半自主决策,但它们依赖于更大的组件框架才能正常运行。这个框架包括使智能代理能够有效推理的LLM、帮助智能代理完成任务的工具,以及允许智能代理从过去的经验中学习并随时间改进响应的记忆。
AI智能代理的组成部分
推理
使AI智能代理如此有效的部分原因是它们具有迭代推理的能力,本质上允许智能代理在整个问题解决过程中主动"思考"。AI智能代理的推理能力源于其底层LLM,并服务于两个主要功能:规划和反思。
在规划阶段,智能代理执行任务分解,即将更复杂的问题分解为更小的、可操作的步骤。这种技术允许智能代理系统地处理任务,并允许它们为不同的任务使用不同的工具。它还允许查询分解,其中复杂的查询被分解为更简单的查询,这提高了LLM响应的准确性和可靠性。
智能代理还通过反思其行动的结果进行推理。这使它们能够根据结果和从外部来源获取的数据评估和迭代调整其行动计划。
工具
LLM具有静态的参数化知识,这意味着它们的理解仅限于训练期间编码的信息。为了扩展其能力超出原始数据集的范围,智能代理可以利用外部工具,如网络搜索引擎、API、数据库和计算框架。这意味着智能代理可以访问实时的外部数据来指导其决策,并完成需要与其他应用程序交互的任务。
工具通常与权限配对,例如查询API、发送消息或访问特定文档或数据库架构的能力。下表概述了AI智能代理的几个常见工具及其执行的任务。
工具 | 任务 |
---|---|
互联网搜索 | 检索和总结实时信息 |
向量搜索 | 检索和总结外部数据 |
代码解释器 | 迭代运行智能代理生成的代码 |
API | 检索实时信息并与外部服务和应用程序执行任务 |
当LLM选择工具来帮助完成任务时,它会进行函数调用,将其功能扩展到简单的文本生成之外,使其能够与现实世界交互。
工具的选择可以由最终用户预先确定,也可以留给智能代理。让智能代理动态选择工具对解决更复杂的任务很有帮助,但对于更简单的工作流程来说可能会增加不必要的复杂性,在这种情况下,预定义的工具会更有效率。
记忆
从过去的经验中学习并记住行动发生的上下文是智能代理工作流区别于纯LLM驱动工作流的部分原因。记忆是一个关键组件,它能够在多个用户交互和会话中捕获和存储上下文和反馈。智能代理有两种主要类型的记忆:短期记忆和长期记忆。
短期记忆存储更即时的信息,如对话历史,这有助于智能代理确定下一步要采取哪些步骤来完成其总体目标。长期记忆存储随时间积累的信息和知识,贯穿多个会话,允许智能代理个性化并随时间改进性能。
什么是智能代理工作流?
一般来说,工作流是一系列为实现特定任务或目标而设计的连接步骤。最简单的工作流类型是确定性的,这意味着它们遵循预定义的步骤序列,无法适应新信息或不断变化的条件。例如,一个自动化的费用审批工作流可能是这样的:"如果费用标记为'餐饮'且少于30美元,则自动批准。"
然而,有些工作流利用LLM或其他机器学习模型或技术。这些通常被称为AI工作流,可以是智能代理式的或非智能代理式的。在非智能代理工作流中,LLM接收指令并生成输出。例如,文本摘要工作流会将较长的文本段落作为输入,提示LLM对其进行摘要,并简单地返回摘要。然而,仅仅因为工作流使用LLM,并不一定意味着它是智能代理式的。
智能代理工作流是由智能代理或一系列智能代理_动态执行_的一系列连接步骤,用于实现特定任务或目标。智能代理由其用户授予权限,这些权限赋予它们有限程度的自主权来收集数据、执行任务和做出决策以在现实世界中执行。智能代理工作流还利用AI智能代理的核心组件,包括它们的推理能力、使用工具与环境交互的能力和持久记忆,将传统工作流完全转变为响应式、自适应和自我进化的过程。
什么是智能代理工作流
什么使工作流具有代理性?
当一个或多个智能代理指导和塑造任务的进展时,AI工作流就变成了智能代理式的。将智能代理添加到现有的非智能代理工作流中,创建了一种混合方法,将结构化工作流的可靠性和可预测性与LLM的智能性和适应性相结合。智能代理工作流的特点是能够:
- 制定计划。 智能代理工作流从规划开始。LLM用于通过任务分解将复杂任务分解为更小的子任务,然后确定最佳执行路线。
- 使用工具执行操作。 智能代理工作流使用一组预定义的工具和权限来完成任务并执行其生成的计划。
- 反思和迭代。 智能代理可以在每个步骤评估结果,根据需要调整计划,并循环直到结果令人满意。
如你所见,我们需要区分三种类型的工作流:传统的非AI工作流、非智能代理AI工作流和智能代理工作流。传统的基于规则的工作流和AI工作流之间的区别在于使用预定义步骤与使用AI模型来完成任务。其次,非智能代理和智能代理AI工作流之间的区别在于使用静态AI模型与动态AI智能代理。这使得智能代理工作流比非智能代理工作流更具适应性和动态性。
智能代理架构和工作流的区别
任何新兴技术都会带来大量新术语。虽然有些人可能会互换使用"智能代理架构"和"智能代理工作流"这两个术语,但它们实际上有一个重要的区别。
智能代理工作流是智能代理为实现某个目标而采取的_一系列步骤_。这些步骤可能包括使用LLM创建计划、将任务分解为子任务、使用互联网搜索等工具完成任务,以及使用LLM反思任务的结果并调整其整体计划。
另一方面,智能代理架构是用于实现给定任务的技术框架和_整体系统设计_。智能代理架构多样且富有创意,但始终包含至少一个具有决策和推理能力的智能代理、智能代理可以使用的工具,以及用于短期和长期记忆的系统。
注意 探索最强大的智能代理架构,通过可视化图解即刻理解。在这里下载免费电子书。
智能代理工作流中的模式
回想一下,智能代理工作流是为完成特定任务(也称为最终目标)而采取的结构化步骤系列。因此,当我们谈论智能代理工作流时,我们谈论的是使智能代理能够实现其最终目标的特定行为模式。我们前面提到的AI智能代理的核心组件在智能代理工作流模式中发挥着关键作用。智能代理的推理能力促进了规划和反思模式,而它们使用工具与环境交互的能力则是工具使用模式的基础。
规划模式
规划设计模式允许智能代理自主地将更复杂的任务分解为一系列更小和更简单的任务,这个过程称为任务分解。任务分解可以带来更好的结果,因为它减少了LLM的认知负担,改善了推理,并最小化了幻觉和其他不准确性。
当实现最终目标的方法不明确,且问题解决过程中的适应性至关重要时,规划特别有效。例如,一个被指示修复软件bug的AI智能代理可能会使用规划模式将任务分解为子任务,如阅读bug报告、识别相关代码部分、生成潜在原因列表,最后选择特定的调试策略。如果第一次修复bug的尝试不成功,智能代理可以在执行后读取错误消息并调整其策略。
虽然规划可以帮助智能代理更好地处理更复杂的任务,但它也可能导致比更确定性的工作流更不可预测的结果。因此,最好只在需要密集问题解决和多跳推理的任务中使用规划模式。
规划模式
工具使用模式
生成式LLM的一个重要限制是它们依赖于预先存在的训练数据,这意味着它们无法检索实时信息或验证超出其先前学习范围的事实。因此,当它们不知道答案时,可能会生成非事实性响应或"猜测"。检索增强生成(RAG)通过为LLM提供相关的实时外部数据来帮助缓解这一限制,从而实现更准确和更具上下文基础的响应。
然而,工具使用超越了简单的RAG,它允许LLM与现实世界_动态交互_,而不是仅仅从中检索数据。在智能代理工作流中,工具使用模式通过允许智能代理与外部资源和应用程序、实时数据或其他计算资源交互来扩展其能力。
常见工具包括API、信息检索(如向量搜索)、网络浏览器、机器学习模型和代码解释器。这些工具用于执行特定任务,如搜索网络、从外部数据库检索数据,或读取或发送电子邮件,以帮助智能代理实现其目标。
工具使用模式
反思模式
反思是一种强大的智能代理设计模式,实现相对简单,可以显著提高智能代理工作流的性能。反思模式是一种自我反馈机制,其中智能代理在最终确定响应或采取进一步行动之前,迭代评估其输出或决策的质量。这些评价随后用于改进智能代理的方法,纠正错误,并改进未来的响应或决策。
当智能代理不太可能在第一次尝试时就成功完成其目标任务时,反思特别有用,例如编写代码。在这种情况下,智能代理可能会生成一段代码,在沙箱或执行环境中运行它,并迭代地将错误反馈给LLM,并指示其改进代码,直到成功执行。
反思的力量在于智能代理能够批评自己的输出,并将这些见解动态地整合到工作流中,从而在没有直接人类反馈的情况下实现持续改进。这些反思可以编码在智能代理的记忆中,允许在当前用户会话期间更有效地解决问题,并通过适应用户偏好来实现个性化并改进未来的交互。
工具使用模式
智能代理工作流用例
像规划和工具使用这样的原子设计模式可以以创造性的方式组合,以有效地利用智能代理AI来完成各个领域的各种任务。除了组合设计模式外,AI智能代理还可以配备不同的工具组合,甚至可以根据需要动态选择工具。它们还可以与人类反馈循环集成,并被赋予不同级别的自主权和决策权。
这些多样的配置允许智能代理工作流针对各个行业的广泛任务进行定制。为了说明这一点,我们概述了两个特别强大的用例:智能代理RAG和智能代理研究助手。
智能代理RAG
检索增强生成(RAG)是一个框架,通过提供从外部数据源检索的相关数据来增强LLM的知识。智能代理RAG将一个或多个智能代理整合到RAG管道中。
在规划阶段,智能代理可以通过查询分解将复杂查询分解为更小的子查询,或确定是否需要向用户请求额外信息来完成请求。
AI智能代理还可以用于在将检索到的数据和响应传递给用户之前评估其相关性和准确性。如果响应不令人满意,智能代理可以重新制定查询,重新访问查询分解步骤,甚至创建新的响应查询计划。
智能代理RAG
注意 像这样的智能代理工作流可以用不同的智能代理架构构建。如果你对上述工作流的潜在架构感兴趣,请在这里下载我们的免费电子书!
智能代理研究助手
智能代理研究助手(某些AI公司也称之为"深度研究")通过搜索网络和各种外部数据,生成关于复杂主题的深入报告和详细见解。这些助手利用智能代理RAG从网络和其他外部源检索信息来响应用户查询。然而,与传统RAG相比,这些助手的独特之处在于它们能够_综合和分析_信息,而不是仅仅从外部源检索相关数据来增强LLM生成的输出。
这种独特的能力归功于几个特点。首先,智能代理研究助手通常使用专门针对网络浏览、任务分解和动态规划进行微调的LLM。其次,这些工作流中的智能代理主动寻求用户指导,请求额外信息或澄清以更好地理解最终目标。第三,这些智能代理能够根据它们检索到的信息调整其计划并改变方向。这意味着它们可以在综合新信息时探索新的、有趣的角度,并连续查询多个数据源,直到获得必要的数据。
因此,智能代理研究助手能够获得更深入的见解,识别随时间变化的趋势,并编写完整的主题报告,而不是仅仅检索现有知识。在撰写本文时,OpenAI、Perplexity和Google都已经公开发布了他们自己的深度研究版本。
智能代理编码助手
智能代理编码助手可以在最少人工干预的情况下生成、重构、改进和调试代码。非智能代理编码助手,如GitHub Copilot的第一个版本,由经过微调以生成代码的生成式LLM驱动,但仅限于生成代码。
使编码助手具有代理性的是它能够通过执行生成的代码并根据执行结果、错误或反馈进行迭代改进来与其环境交互。这些助手还可以被授予权限,通过创建提交和PR来对现有代码库进行更改,就像Anthropic的Claude Code一样,这是自动化软件开发过程的重要一步。智能代理编码助手还可以用来建议终端命令和其他代码更改和添加,并在执行前等待明确的人类批准,就像Cursor的Agent一样,让人类完全控制智能代理。此外,更重要的是,智能代理编码助手可以通过将错误编码到长期记忆中来从错误中学习,使它们随时间变得更智能。
智能代理工作流示例
现在我们已经概述了智能代理工作流的一些用例,我们将更详细地了解两个真实世界智能代理的工作流程的各个步骤:Claygent和ServiceNow AI Agents。每个工作流都使用其独特的模式和工具组合,赋予其智能代理不同程度的自主权和决策能力,并依赖不同级别的人类反馈和参与。
Claygent (Clay)
对于增长和销售团队来说,潜在客户研究和数据丰富可能是一项繁琐的任务。Clay是一家数据丰富和外联自动化公司,通过Claygent------一个由AI驱动的研究智能代理,持续扫描网络和内部数据库以提供实时、可操作的见解,来简化这个过程。
假设你想使用Claygent基于姓名和电子邮件地址列表来丰富LinkedIn个人资料,然后发送个性化的介绍消息。首先,你指定要查找的数据字段(例如工作经验、教育、技能),这些字段被注入到预配置的提示模板中。智能代理的LLM处理查询,使用网络爬虫工具搜索LinkedIn URL,并从LinkedIn个人资料中提取所需数据。然后,这些数据可以发送给另一个LLM,你可以指示它以任何你想要的方式总结或分析丰富的数据。同一个LLM(或不同的LLM)然后可以用来为每个个人资料创建个性化的外联消息。
Claygent是一个相对灵活的智能代理工作流示例,可以以创造性的方式定制,同时仍然通过针对特定任务的预配置提示模板为智能代理提供指导。
ServiceNow AI Agents
ServiceNow是一个云基础平台,可以简化和自动化IT、运营、HR和客户服务领域的工作流程。他们的ServiceNow平台现在包括对AI智能代理的访问,旨在自动化重复性任务和预先存在的工作流程,同时仍然让人类完全控制决策。
这里是一个智能代理工作流如何帮助解决技术支持案例的例子。当客户提交技术支持工单时,工作流被触发。工单信息然后传递给一个或多个智能代理,这些智能代理在内部IT支持知识库上执行RAG。智能代理总结发现,分析类似案例,并为IT支持专家生成摘要。最后,它生成如何继续的建议,专家可以批准或拒绝。
ServiceNow AI Agents代表了在生产环境中部署智能代理的一种创新但更谨慎的方法,给予它们严格的角色和要完成的任务,以及有限的(如果有的话)影响最终用户或客户的决策自主权。
注意 想要构建你自己的智能代理工作流?查看使用Inngest构建智能代理工作流,我们将展示如何创建一个智能代理晚餐规划器。
智能代理工作流的优势和局限性
AI智能代理已经迅速从机器学习社区发展到主流。考虑到围绕智能代理AI的所有兴奋、期待和期望,很难将炒作与现实分开,并理解其真正的能力和局限性。在本节中,我们将给你一个平衡的视角,介绍智能代理工作流的优势、挑战和局限性。
智能代理工作流的优势
智能代理工作流超越了传统自动化,通过使AI智能代理能够规划、适应和随时间改进。与遵循固定规则的确定性工作流不同,智能代理工作流可以动态响应复杂性,通过反馈改进其方法,并扩展以处理更高级的任务。这种适应性使它们在需要灵活性、学习和决策的场景中特别有价值。
让我们更仔细地看看智能代理工作流的优势:
- 灵活性、适应性和可定制性。 静态、确定性的工作流难以适应不断发展的情况和意外困难。另一方面,智能代理工作流提供了根据任务难度调整和发展的灵活性,确保它们始终保持相关性并给出最佳解决方案。它们还可以通过组合不同的模式进行定制,实现模块化设计,允许随着需求和复杂性的增长进行迭代升级。
- 改进复杂任务的性能。 通过将复杂任务分解为更小的可管理步骤(通过任务分解和规划),智能代理工作流显著优于确定性的零样本方法。
- 自我纠正和持续学习。 反思模式允许智能代理工作流评估自己的行动,改进策略,并随时间改进结果。利用短期和长期记忆,它们从过去的经验中学习,使每次迭代都变得更有效和个性化。
- 运营效率和可扩展性。 智能代理工作流可以高精度地自动化重复性任务(如果构建正确),在特定场景中减少人工努力和运营成本。它们还可以轻松扩展,使其非常适合处理更大的工作负载或复杂系统。
请记住,AI智能代理仍然是一项新兴技术,随着研究人员和用户发现将智能代理整合到工作流中的新颖方式,这份优势清单可能会扩展。
智能代理工作流的挑战和局限性
尽管具有优势和创新特性,AI智能代理也带来了一些挑战和局限性。由于其概率性质,AI智能代理本质上为工作流增加了复杂性。而且仅仅因为智能代理_可以_用来自动化流程,并不意味着它们_应该_被使用。以下是智能代理工作流最显著的一些挑战和局限性:
- 简单任务的不必要复杂性。 当用于表单输入或基本数据提取等简单工作流时,AI智能代理可能会增加开销。在确定性、基于规则的自动化足够的情况下,引入智能代理可能会导致效率低下、额外开支,甚至可能降低性能。
- 增加自主权导致可靠性降低。 随着智能代理在工作流中获得更多决策权,它们的概率性质可能会引入不可预测性,使输出变得不太可靠且更难控制。实施和积极维护智能代理的护栏并持续审查其授予的权限至关重要。
- 伦理和实践考虑。 并非所有决策都应该委托给AI系统。在高风险或敏感领域使用智能代理需要仔细监督,以确保负责任的部署并防止意外后果。
鉴于这些局限性,我们建议花时间思考在给定工作流中使用智能代理是否真的必要。一些帮助你确定这一点的问题可能包括:
- 任务是否足够复杂,需要自适应决策,还是确定性方法就足够了?
- 更简单的AI辅助工具(如不带智能代理的RAG)是否能达到相同的效果?
- 工作流是否涉及不确定性、不断变化的条件或多步推理,智能代理可以更有效地处理?
- 赋予智能代理自主权的风险是什么,它们能否被缓解?
总结
智能代理工作流是帮助自动化完成需要决策和推理的复杂任务的强大工具。在本文中,我们回顾了AI智能代理的核心组件,包括记忆、工具和推理能力,以及它们如何为智能代理工作流做出贡献。我们还讨论了常见的工作流模式,如规划、工具使用和反思,这些模式可以单独使用或组合使用来创建动态工作流。此外,我们概述了两个特别有效的用例,智能代理RAG和智能代理研究助手,并描述了市场上已有的两个智能代理的工作流,Clay的Claygent和ServiceNow的AI Agents。最后,我们触及了智能代理工作流的优势以及其局限性和挑战。
AI智能代理背后的技术在不断发展,我们对它们的理解也在不断发展。本文旨在让你基本了解AI智能代理在工作流中如何运作,但绝不是对该主题的详尽探讨。
要更详细地了解和解释特定的智能代理架构,请下载我们的免费电子书。
相关资料: