译: 构建高效 AI Agent 智能体

大家好,我是双越。前百度 滴滴 资深前端工程师,慕课网金牌讲师,PMP。我的代表作有:

  • wangEditor 开源 web 富文本编辑器,GitHub 18k star,npm 周下载量 20k
  • 划水AI Node 全栈 AIGC 知识库,包括 AI 写作、多人协同编辑。复杂业务,真实上线。
  • 前端面试派 系统专业的面试导航,刷题,写简历,看面试技巧,内推工作。开源免费。

我在正在开发一个 AI Agent 智能体项目【智语】一个智能面试官,可以优化简历、模拟面试、解答题目等。有兴趣的同学可以围观、学习。

原文链接 www.anthropic.com/engineering...

PS. 翻译一篇技术文章,可不是一键翻译、一分钟搞定那么简单!首先我需要把这篇文章通读一遍,然后一段一段的翻译,每翻译完一段我都要读一遍,去修改一些翻译不当的词汇。所以翻译国外博客也是一个非常好的学习方式。

下面是文章内容:


在过去的一年里,我们与数十个团队合作,在各个行业构建大型语言模型(LLM)Agent。最成功的实现始终没有使用复杂的框架或专门的库。相反,它们是使用简单、可组合的模式构建的。

在这篇文章中,我们分享了从与客户合作和构建 Agent 的过程中所学到的经验,并为开发者提供了构建高效代理的实用建议。

什么是 Agent

Agent 可以有多种定义。一些客户将代理定义为完全自主的系统,这些系统在较长的时间内独立运行,使用各种工具来完成复杂的任务。其他人则使用该术语来描述遵循预定义 workflow 的更具规范性的实现。在 Anthropic (Claude AI 的公司),我们将所有这些变体归类为代理系统,但在 workflow 和 Agent 之间做出了重要的架构区分:

  • workflow 是一种系统,其中大型语言模型(LLMs)和工具通过预定义的代码路径进行编排。
  • Agent 是大型语言模型(LLMs)动态指导其自身流程和工具使用的系统,保持对它们如何完成任务的控制。

接下来,我们将深入探讨这两种 Agent 系统。

什么时候该用 Agent 什么时候不该用

在构建基于大型语言模型(LLM)的应用程序时,我们建议采用尽可能简单的解决方案,仅在必要时增加复杂度。这可能意味着完全不构建 Agentic syatem 。Agentic syatem 通常以牺牲延迟和成本为代价来换取更好的任务性能,您应仔细考虑这种权衡是否合理。

当需要更高复杂度时,workflow 能为明确界定的任务提供可预测性和一致性;而当需要大规模灵活性和模型驱动决策时,agent 则更为合适。然而,对于多数应用场景而言,通过检索和上下文示例优化单次大型语言模型调用通常已足够。

何时/如何使用 AI 开发框架

现在有很多 AI 开发框架可以让 agentic system 更加容易实现,例如

这些框架通过简化调用大型语言模型(LLM)、定义和解析工具以及串联调用等标准底层任务,降低了入门门槛。然而,它们往往引入额外的抽象层,可能掩盖底层提示与响应,导致调试难度增加。此外,这些框架还可能诱使人添加不必要的复杂性,而实际上更简单的设置就已足够。

我们建议开发人员从直接使用LLM API开始:许多模式可以在几行代码中实现。如果你确实使用框架,请确保你理解底层代码。对幕后工作的错误假设是客户错误的常见来源。

构架 block workflow 和 Agent

在本节中,我们将探讨我们在生产中看到的 agentic system 的常见模式。我们将从我们的基础构建块开始 ------ 增强的LLM ------ 并逐步增加复杂性,从简单的组合工作流程到自主代理。

构架 block:增强的 LLM

Agent 的基本构建块是通过检索、工具和内存等增强功能增强的LLM。我们目前的模型可以积极使用这些功能------生成自己的搜索查询,选择合适的工具,并确定要保留哪些信息。

我们建议关注实现的两个关键方面:根据您的特定用例定制这些功能,并确保它们为您的LLM提供一个简单、有据可查的界面。虽然有很多方法可以实现这些增强,但一种方法是通过我们最近发布的 MCP ,该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的其余部分,我们将假设每个LLM调用都可以访问这些增强功能。

workflow:prompt chain 提示链

提示链接将任务分解为一系列步骤,其中每个LLM调用都处理前一个任务的输出。您可以在任何中间步骤上添加程序检查(见下图中的"gate"),以确保流程仍在正轨上。

何时使用这个 workflow :这个 workflow 非常适合任务可以轻松、干净地分解为固定子任务的情况。主要目标是通过使每个LLM调用都更容易完成,以牺牲延迟来获得更高的准确性。

提示链 workflow 的几个使用场景

  • 生成营销文案,然后将其翻译成另一种语言。
  • 编写文档大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。

workflow:rouing 路由

路由对输入进行分类,并将其引导到专门的后续任务。此工作流允许分离关注点,并构建更专业的提示。如果没有这个工作流程,对一种输入进行优化可能会损害其他输入的性能。

何时使用这个 workflow:路由适用于复杂的任务,在这些任务中,有不同的类别可以更好地单独处理,并且可以通过LLM或更传统的分类模型/算法准确地处理分类。

Routing workflow 的几个使用场景

  • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具中。
  • 将简单/常见问题路由到较小的模型,如Claude 3.5 Haiku,将困难/异常问题路由到更强大的模型,例如Claude 3.5 Sonnet,以优化成本和速度。

Workflow: Parallelization 并行

LLM有时可以同时处理一个任务,并以编程方式聚合其输出。这种工作流程,即并行化,体现在两个关键变化中:

  • 分段 Sectioning :将任务分解为并行运行的独立子任务。
  • 投票 Voting :多次运行同一任务以获得不同的输出。

何时使用这个 workflow :当划分的子任务可以并行化以提高速度时,或者当需要多个视角或尝试以获得更高置信度的结果时,并行化是有效的。对于具有多个考虑因素的复杂任务,当每个考虑因素都由单独的LLM调用处理时,LLM通常会表现更好,从而可以将注意力集中在每个特定方面。

Parallelization workflow 使用场景

  • 分段 Sectioning
    • 实现护栏,其中一个模型实例处理用户查询,而另一个则筛选不适当的内容或请求。这往往比让相同的LLM调用处理护栏和核心响应表现更好。
    • 自动评估LLM性能,其中每个LLM调用在给定提示下评估模型性能的不同方面。
  • 投票 Voting
    • 检查一段代码是否存在漏洞,如果发现问题,会有几个不同的提示检查并标记代码。
    • 评估给定内容是否不合适,有多个提示评估不同方面,或要求不同的投票阈值来平衡误报和漏报。

Workflow: Orchestrator-workers 编排

在编排 workflow 中,中央LLM动态分解任务,将其委托给工作LLM,并综合其结果。

何时使用这个 workflow :此工作流非常适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量和每个文件中更改的性质可能取决于任务)。虽然它的拓扑结构相似,但与并行化的关键区别在于它的灵活性------子任务不是预先定义的,而是由编排器根据特定输入确定的。

Orchestrator-workers workflow 的使用场景

  • 每次对多个文件进行复杂更改的编码产品。
  • 搜索任务涉及从多个来源收集和分析信息,以寻找可能的相关信息。

Workflow: Evaluator-optimizer 评估优化

在评估器优化器工作流中,一个LLM调用生成响应,而另一个则在循环中提供评估和反馈。

何时使用此工作流:当我们有明确的评估标准,并且迭代细化提供可衡量的价值时,此工作流特别有效。良好匹配的两个迹象是,第一,当人类表达他们的反馈时,LLM的反应可以明显改善;第二,LLM可以提供这样的反馈。这类似于人类作家在制作精美文档时可能经历的迭代写作过程。

Evaluator-optimizer workflow 的使用场景

  • 文学翻译,译者LLM最初可能无法捕捉到细微差别,但评估者LLM可以提供有用的批评。
  • 需要多轮搜索和分析以收集全面信息的复杂搜索任务,评估人员决定是否需要进一步搜索。

Agents

随着LLM在关键能力方面的成熟,Agent 正在生产中出现------理解复杂的输入、参与推理和规划、可靠地使用工具以及从错误中恢复。代理从人类用户的命令或与人类用户的交互式讨论开始工作。一旦任务明确,智能体就会独立计划和操作,并可能返回给人类以获取更多信息或判断。在执行过程中,代理在每个步骤(如工具调用结果或代码执行)从环境中获取"基本事实"以评估其进度至关重要。然后,Agent 可以在检查点或遇到阻断器时暂停以获取人工反馈。任务通常在完成后终止,但通常也会包括停止条件(如最大迭代次数)以保持控制。

Agent 可以处理复杂的任务,但它们的实现通常很简单。它们通常只是LLM,使用基于循环中环境反馈的工具。因此,清晰周到地设计工具集及其文档至关重要。

何时使用 agent : agent 可用于难以或不可能预测所需步骤数的开放式问题,以及无法硬编码固定路径的问题。LLM可能会进行多次轮换,您必须对其决策有一定程度的信任。代理的自主性使其成为在可信环境中扩展任务的理想选择。

Agent 的自主性意味着更高的成本,以及复合错误的可能性。我们建议在沙盒环境中进行广泛的测试,并设置适当的防护栏。

使用 agent 的应用场景,以下示例来自我们自己的实现:

  • 一个编码代理,用于解决SWE工作台任务,该任务涉及根据任务描述对许多文件进行编辑;
  • 我们的"计算机使用"参考实现,Claude使用计算机完成任务。

组合和定制这些模式

这些 blocks 不是规定性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样,成功的关键是衡量性能和迭代实现。重复一遍:只有当复杂性明显改善了结果时,你才应该考虑增加复杂性。

总结

LLM领域的成功不是建立最复杂的系统。这是关于为您的需求建立正确的系统。从简单的提示开始,通过综合评估对其进行优化,只有在更简单的解决方案不足时才添加多步骤代理系统。

在实施 agent 时,我们试图遵循三个核心原则:

  • 保持 agent 设计的简洁性。
  • 通过明确显示 agent 的计划步骤来优先考虑透明度。
  • 通过全面的工具文档和测试,精心制作您的 agent 计算机界面(ACI)。

框架可以帮助您快速入门,但在进入生产环境时,不要犹豫,减少抽象层并使用基本组件进行构建。通过遵循这些原则,您可以创建不仅功能强大,而且可靠、可维护且受用户信任的 agent 。

相关推荐
艾小码4 小时前
告别数据混乱!掌握JSON与内置对象,让你的JS代码更专业
前端·javascript
liangshanbo121510 小时前
写好 React useEffect 的终极指南
前端·javascript·react.js
哆啦A梦158812 小时前
搜索页面布局
前端·vue.js·node.js
_院长大人_12 小时前
el-table-column show-overflow-tooltip 只能显示纯文本,无法渲染 <p> 标签
前端·javascript·vue.js
Q_Q51100828513 小时前
python+uniapp基于微信小程序的旅游信息系统
spring boot·python·微信小程序·django·flask·uni-app·node.js
哆啦A梦158813 小时前
axios 的二次封装
前端·vue.js·node.js
阿珊和她的猫13 小时前
深入理解与手写发布订阅模式
开发语言·前端·javascript·vue.js·ecmascript·状态模式
Q_Q51100828514 小时前
python基于web的汽车班车车票管理系统/火车票预订系统/高铁预定系统 可在线选座
spring boot·python·django·flask·node.js·汽车·php