【Agent智能体5 | 任务分解:识别工作流中的步骤】

声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

下面主要通过举几个例子,来展示如何将这些有用的行为拆解为代理式流程的离散步骤

例子1:写一篇文章

该图片展示了使用大型语言模型完成复杂任务时,两种不同工作流的对比。说明了智能体工作流比单次直接提示能产生更高质量的结果

  • 传统的单次提示方法(图片上半部分)
    • 直接给 AI 下达一个宽泛的指令:"写一篇关于主题 X 的论文(Write an essay on topic X)"
    • LLM 仅通过一次计算,直接生成最终的文章。
    • 如右侧文字所述,这种方法生成的文章通常只停留在表面层次(Surface level) ,并且只能涵盖一些显而易见的事实(Covers obvious facts only),缺乏深度和严谨性。
  • 迭代式智能体工作流(图片下半部分)
    这种方式将这个任务拆解为了5个步骤:
    • 第 1 步:写大纲(Write an essay outline) 首先让 LLM 针对主题 X 规划文章结构和核心观点。
    • 第 2 步:网络搜索(Search web) 使用 LLM 配合网络搜索工具(Web search),查阅相关资料,为文章提供事实支撑。
    • 第 3 步:写初稿(Write a first draft) 基于前面的大纲和搜索到的资料,让 LLM 生成第一版草稿。(可以看到划掉了"Write the essay(写论文)"并改为"初稿",强调这并不是最终成品。)
    • 第 4 步:审查与反思(Consider what parts need revision) 让 LLM 作为审查的角色,评估初稿中哪些部分需要修改。
    • 第 5 步:修改草稿(Revise your draft) 根据第 4 步的反思意见,让 LLM 重新打磨和修改文章,最终输出高质量的定稿。

总结一下将论文写作分解为各个步骤

  • 直接生成 (Direct generation)
    • 只用一步,直接让 AI "写一篇关于主题 X 的论文"。
    • 只能得到表面化、缺乏深度的内容。不够好。
  • 三步工作流 (3-step workflow)
    • 进行了一定程度的拆解:写大纲、网络搜索(查资料)、直接写出论文。
    • 虽然加入了规划(大纲)和事实补充(搜索),比第一种方法强。但它仍然在获取资料后一次性输出了成品,缺乏打磨的过程,还是不够好
  • 五步工作流 (5-step workflow)
    • 这种方式最完善:写大纲、网络搜索、写初稿思考哪些部分需要修改修改草稿

例子2:回复基础客户订单咨询

场景:系统收到了一封客户投诉邮件。

  • 问题:发错货了(订了蓝色搅拌机,收到了红色烤面包机)。
  • 关键信息:包含具体的订单号(Order #8847)。
  • 情绪/紧迫性:客户急需这个产品参加周末女儿的生日派对。

为了妥善处理这封邮件,AI 智能体被设计为执行以下三个步骤:

  • 第 1 步:提取关键信息 (Extract key information)
    • 使用大模型 (LLM)
    • LLM 阅读邮件,提取出需要跟进的核心数据,例如:订单号 #8847、客户原本想要的商品、实际收到的商品,以及紧急程度。
  • 第 2 步:查找相关客户记录 (Find relevant customer records)
    • 大模型 (LLM) + 订单数据库查询工具 (orders database query)
    • LLM 无法凭空知道订单详情,所以它会利用提取出的"订单号 #8847",调用系统的数据库查询工具,去核实订单状态、客户地址、是否有库存等真实信息。防止幻觉的影响
  • 第 3 步:撰写并发送回复 (Write and send response)
    • 大模型 (LLM) + 发送邮件工具 (send email)
    • 综合邮件的上下文和从数据库查到的真实记录,LLM 拟定一封安抚客户并提供解决方案的邮件,最后直接调用邮件发送工具完成任务闭环。

这个例子展示了高级 AI 智能体的运作方式。它不仅能进行语言理解和文本生成,还能像人类员工一样,使用特定的业务工具(如查询数据库、操作邮件系统),从而将纯文本处理转化为能实际解决业务问题的自动化流程。

例子3:发票处理

这是一个非常典型的企业办公自动化例子,展示了 AI 如何处理结构化/半结构化数据

  • 任务背景:收到一张供应商的发票(左侧图片),需要将其录入公司的财务系统。
  • 第 1 步:提取所需信息 (Find required information)
    • 执行者:大语言模型 (LLM) 或多模态模型。
    • AI "阅读"这张发票,准确提取出公司名称(TechFlow Solutions LLC)、金额($3000)、日期等关键字段。
  • 第 2 步:创建新的数据库条目并保存 (Create a new database entry and save)
    • 执行者 :大模型 (LLM) + 更新数据库工具 (update database)
    • AI 将提取好的信息转化为数据库能够理解的格式,并调用"写入数据库"的工具,完成自动录入。

通过上面的例子,看一下核心理论框架。

核心理论框架(你拥有哪些构建模块?)

  • 模块一:模型 (Models)

    负责思考、理解、推理和决策。

    • 大语言模型 (LLMs) :核心大脑。负责生成文本、提取信息,以及决定何时调用什么工具 (tool use)
    • 其他 AI 模型 (Other AI models):辅助大脑。专门处理非纯文本的任务,例如把 PDF 转成文字、语音转文字、或者分析图片。
  • 模块二:工具 (Tools)

    让 AI 能够打破封闭环境,与外部世界交互。

    • API 接口:让 AI 可以执行具体动作,比如进行网络搜索(之前写论文的例子)、获取实时数据、发邮件(之前客服的例子)、查日历等。
    • 信息检索 (Information retrieval):相当于 AI 的"外部记忆库"。让 AI 可以查询企业私有数据库,或者使用 RAG技术调取专业文档,确保回答精准无误。
    • 代码执行 (Code execution):大模型本身算数不好,所以给它配备代码执行环境或计算器工具,用来做精准的数据分析和数学计算。

总结

构建智能体工作流的关键技能之一,就是分析别人做的事情并识别可以用哪些独立步骤来实现

在分析每一个独立的步骤时,可以问自己一个问题:"这个步骤能否用大语言模型实现,或者用我能访问的API或函数调用来实现

如果答案是否定的,那么反问自己"如果我是人类,该如何完成这一步,是否可以进一步拆解这个步骤,分解成更小的步骤,这样也许更适合用大语言模型或者软件工具实现!"

如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!

相关推荐
澄旭9 小时前
拆解一个成熟 Skill,看懂 Skill 到底该怎么写
人工智能
王木风9 小时前
拆解一个 LLM 工程化项目:16 个 Service + Agent 对话循环怎么协同跑流水线
人工智能·agent
沪漂阿龙9 小时前
《LangChain 系列》Human-in-the-loop:什么时候必须让人工介入?
人工智能·架构·langchain
冬哥聊AI9 小时前
Loop Engineering 来了:从写 Prompt 到设计 Loop,AI 编程的第四次范式跃迁
人工智能
柒星栈9 小时前
Codex 不只是更强的代码助手,它开始像代理一样推进开发任务了
人工智能
o_insist9 小时前
04-从零手写 ReAct 循环:Agent 的心跳是怎么转起来的
人工智能·agent
DayByDay9 小时前
从“单专家”到“多专家辩论”:多大脑对话实现复盘
人工智能
狗哥哥9 小时前
知乎回答二次创作转AI 漫画/视频思路分享
人工智能
极速蜗牛9 小时前
我在 Taro 小程序项目里实践的 API First + AI 编程方式
前端·人工智能·后端
桜吹雪9 小时前
所有智能体架构(3):Planning(计划任务)
javascript·人工智能·langchain