【Agent智能体5 | 任务分解:识别工作流中的步骤】

声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

下面主要通过举几个例子,来展示如何将这些有用的行为拆解为代理式流程的离散步骤

例子1:写一篇文章

该图片展示了使用大型语言模型完成复杂任务时,两种不同工作流的对比。说明了智能体工作流比单次直接提示能产生更高质量的结果

  • 传统的单次提示方法(图片上半部分)
    • 直接给 AI 下达一个宽泛的指令:"写一篇关于主题 X 的论文(Write an essay on topic X)"
    • LLM 仅通过一次计算,直接生成最终的文章。
    • 如右侧文字所述,这种方法生成的文章通常只停留在表面层次(Surface level) ,并且只能涵盖一些显而易见的事实(Covers obvious facts only),缺乏深度和严谨性。
  • 迭代式智能体工作流(图片下半部分)
    这种方式将这个任务拆解为了5个步骤:
    • 第 1 步:写大纲(Write an essay outline) 首先让 LLM 针对主题 X 规划文章结构和核心观点。
    • 第 2 步:网络搜索(Search web) 使用 LLM 配合网络搜索工具(Web search),查阅相关资料,为文章提供事实支撑。
    • 第 3 步:写初稿(Write a first draft) 基于前面的大纲和搜索到的资料,让 LLM 生成第一版草稿。(可以看到划掉了"Write the essay(写论文)"并改为"初稿",强调这并不是最终成品。)
    • 第 4 步:审查与反思(Consider what parts need revision) 让 LLM 作为审查的角色,评估初稿中哪些部分需要修改。
    • 第 5 步:修改草稿(Revise your draft) 根据第 4 步的反思意见,让 LLM 重新打磨和修改文章,最终输出高质量的定稿。

总结一下将论文写作分解为各个步骤

  • 直接生成 (Direct generation)
    • 只用一步,直接让 AI "写一篇关于主题 X 的论文"。
    • 只能得到表面化、缺乏深度的内容。不够好。
  • 三步工作流 (3-step workflow)
    • 进行了一定程度的拆解:写大纲、网络搜索(查资料)、直接写出论文。
    • 虽然加入了规划(大纲)和事实补充(搜索),比第一种方法强。但它仍然在获取资料后一次性输出了成品,缺乏打磨的过程,还是不够好
  • 五步工作流 (5-step workflow)
    • 这种方式最完善:写大纲、网络搜索、写初稿思考哪些部分需要修改修改草稿

例子2:回复基础客户订单咨询

场景:系统收到了一封客户投诉邮件。

  • 问题:发错货了(订了蓝色搅拌机,收到了红色烤面包机)。
  • 关键信息:包含具体的订单号(Order #8847)。
  • 情绪/紧迫性:客户急需这个产品参加周末女儿的生日派对。

为了妥善处理这封邮件,AI 智能体被设计为执行以下三个步骤:

  • 第 1 步:提取关键信息 (Extract key information)
    • 使用大模型 (LLM)
    • LLM 阅读邮件,提取出需要跟进的核心数据,例如:订单号 #8847、客户原本想要的商品、实际收到的商品,以及紧急程度。
  • 第 2 步:查找相关客户记录 (Find relevant customer records)
    • 大模型 (LLM) + 订单数据库查询工具 (orders database query)
    • LLM 无法凭空知道订单详情,所以它会利用提取出的"订单号 #8847",调用系统的数据库查询工具,去核实订单状态、客户地址、是否有库存等真实信息。防止幻觉的影响
  • 第 3 步:撰写并发送回复 (Write and send response)
    • 大模型 (LLM) + 发送邮件工具 (send email)
    • 综合邮件的上下文和从数据库查到的真实记录,LLM 拟定一封安抚客户并提供解决方案的邮件,最后直接调用邮件发送工具完成任务闭环。

这个例子展示了高级 AI 智能体的运作方式。它不仅能进行语言理解和文本生成,还能像人类员工一样,使用特定的业务工具(如查询数据库、操作邮件系统),从而将纯文本处理转化为能实际解决业务问题的自动化流程。

例子3:发票处理

这是一个非常典型的企业办公自动化例子,展示了 AI 如何处理结构化/半结构化数据

  • 任务背景:收到一张供应商的发票(左侧图片),需要将其录入公司的财务系统。
  • 第 1 步:提取所需信息 (Find required information)
    • 执行者:大语言模型 (LLM) 或多模态模型。
    • AI "阅读"这张发票,准确提取出公司名称(TechFlow Solutions LLC)、金额($3000)、日期等关键字段。
  • 第 2 步:创建新的数据库条目并保存 (Create a new database entry and save)
    • 执行者 :大模型 (LLM) + 更新数据库工具 (update database)
    • AI 将提取好的信息转化为数据库能够理解的格式,并调用"写入数据库"的工具,完成自动录入。

通过上面的例子,看一下核心理论框架。

核心理论框架(你拥有哪些构建模块?)

  • 模块一:模型 (Models)

    负责思考、理解、推理和决策。

    • 大语言模型 (LLMs) :核心大脑。负责生成文本、提取信息,以及决定何时调用什么工具 (tool use)
    • 其他 AI 模型 (Other AI models):辅助大脑。专门处理非纯文本的任务,例如把 PDF 转成文字、语音转文字、或者分析图片。
  • 模块二:工具 (Tools)

    让 AI 能够打破封闭环境,与外部世界交互。

    • API 接口:让 AI 可以执行具体动作,比如进行网络搜索(之前写论文的例子)、获取实时数据、发邮件(之前客服的例子)、查日历等。
    • 信息检索 (Information retrieval):相当于 AI 的"外部记忆库"。让 AI 可以查询企业私有数据库,或者使用 RAG技术调取专业文档,确保回答精准无误。
    • 代码执行 (Code execution):大模型本身算数不好,所以给它配备代码执行环境或计算器工具,用来做精准的数据分析和数学计算。

总结

构建智能体工作流的关键技能之一,就是分析别人做的事情并识别可以用哪些独立步骤来实现

在分析每一个独立的步骤时,可以问自己一个问题:"这个步骤能否用大语言模型实现,或者用我能访问的API或函数调用来实现

如果答案是否定的,那么反问自己"如果我是人类,该如何完成这一步,是否可以进一步拆解这个步骤,分解成更小的步骤,这样也许更适合用大语言模型或者软件工具实现!"

如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!

相关推荐
shen_8 小时前
Skill:Agent 的能力扩展系统
人工智能·agent
alwaysrun8 小时前
AI之发展启示(The Bitter Lesson)
人工智能·aigc
小明与核桃8 小时前
从 Prompt 到 Context 再到 Harness:AI 工程化的三次进化
人工智能
北京耐用通信8 小时前
耐达讯自动化:专业解决MODBUS TCP转PROFIBUS协议转换难题
人工智能·物联网·网络协议·自动化·信息与通信
java1234_小锋8 小时前
利用Cursor AI编程 两小时实现 基于Spring AI 2.0的带智能客服的商城系统(带在线支付功能)
人工智能·spring·ai编程·智能客服·spring ai·ai智能客服
图特摩斯科技9 小时前
AI自动构建本体?安排! Harness+OntoFlow让本体开发像搭积木一样简单
人工智能·知识图谱·abutiongraph·本体论·palantir·ontology
imbackneverdie9 小时前
多AI模型协同完成一篇论文是什么效果?
人工智能·自然语言处理·aigc·科研·ai写作·论文写作·ai工具
xUxIAOrUIII9 小时前
Dive into Claude Code 系列文章 - Part One
人工智能·ai·typescript
义嘉泰9 小时前
一颗 NAND Flash 的自我修养
前端·人工智能·芯片