【Agent智能体5 | 任务分解：识别工作流中的步骤】

声明：本篇博客是以吴恩达的【Agent智能体】教程为基础，并对其中的内容做了笔记整理以及个人收获的总结。

下面主要通过举几个例子，来展示如何将这些有用的行为拆解为代理式流程的离散步骤

该图片展示了使用大型语言模型完成复杂任务时，两种不同工作流的对比。说明了智能体工作流比单次直接提示能产生更高质量的结果

传统的单次提示方法（图片上半部分）
- 直接给 AI 下达一个宽泛的指令："写一篇关于主题 X 的论文（Write an essay on topic X）"
- LLM 仅通过一次计算，直接生成最终的文章。
- 如右侧文字所述，这种方法生成的文章通常只停留在表面层次（Surface level） ，并且只能涵盖一些显而易见的事实（Covers obvious facts only），缺乏深度和严谨性。
迭代式智能体工作流（图片下半部分）
这种方式将这个任务拆解为了5个步骤：
- 第 1 步：写大纲（Write an essay outline） 首先让 LLM 针对主题 X 规划文章结构和核心观点。
- 第 2 步：网络搜索（Search web） 使用 LLM 配合网络搜索工具（Web search），查阅相关资料，为文章提供事实支撑。
- 第 3 步：写初稿（Write a first draft） 基于前面的大纲和搜索到的资料，让 LLM 生成第一版草稿。（可以看到划掉了"Write the essay（写论文）"并改为"初稿"，强调这并不是最终成品。）
- 第 4 步：审查与反思（Consider what parts need revision） 让 LLM 作为审查的角色，评估初稿中哪些部分需要修改。
- 第 5 步：修改草稿（Revise your draft） 根据第 4 步的反思意见，让 LLM 重新打磨和修改文章，最终输出高质量的定稿。

直接生成 (Direct generation)
- 只用一步，直接让 AI "写一篇关于主题 X 的论文"。
- 只能得到表面化、缺乏深度的内容。不够好。
三步工作流 (3-step workflow)
- 进行了一定程度的拆解：写大纲、网络搜索（查资料）、直接写出论文。
- 虽然加入了规划（大纲）和事实补充（搜索），比第一种方法强。但它仍然在获取资料后一次性输出了成品，缺乏打磨的过程，还是不够好
五步工作流 (5-step workflow)
- 这种方式最完善：写大纲、网络搜索、写初稿、思考哪些部分需要修改 、修改草稿。

场景：系统收到了一封客户投诉邮件。

问题：发错货了（订了蓝色搅拌机，收到了红色烤面包机）。

关键信息：包含具体的订单号（Order #8847）。

情绪/紧迫性：客户急需这个产品参加周末女儿的生日派对。

为了妥善处理这封邮件，AI 智能体被设计为执行以下三个步骤：

第 1 步：提取关键信息 (Extract key information)
- 使用大模型 (LLM)
- LLM 阅读邮件，提取出需要跟进的核心数据，例如：订单号 #8847、客户原本想要的商品、实际收到的商品，以及紧急程度。
第 2 步：查找相关客户记录 (Find relevant customer records)
- 大模型 (LLM) + 订单数据库查询工具 (orders database query)
- LLM 无法凭空知道订单详情，所以它会利用提取出的"订单号 #8847"，调用系统的数据库查询工具，去核实订单状态、客户地址、是否有库存等真实信息。防止幻觉的影响
第 3 步：撰写并发送回复 (Write and send response)
- 大模型 (LLM) + 发送邮件工具 (send email)
- 综合邮件的上下文和从数据库查到的真实记录，LLM 拟定一封安抚客户并提供解决方案的邮件，最后直接调用邮件发送工具完成任务闭环。

这个例子展示了高级 AI 智能体的运作方式。它不仅能进行语言理解和文本生成，还能像人类员工一样，使用特定的业务工具（如查询数据库、操作邮件系统），从而将纯文本处理转化为能实际解决业务问题的自动化流程。

这是一个非常典型的企业办公自动化例子，展示了 AI 如何处理结构化/半结构化数据：

任务背景：收到一张供应商的发票（左侧图片），需要将其录入公司的财务系统。
第 1 步：提取所需信息 (Find required information)
- 执行者：大语言模型 (LLM) 或多模态模型。
- AI "阅读"这张发票，准确提取出公司名称（TechFlow Solutions LLC）、金额（$3000）、日期等关键字段。
第 2 步：创建新的数据库条目并保存 (Create a new database entry and save)
- 执行者 ：大模型 (LLM) + 更新数据库工具 (update database)。
- AI 将提取好的信息转化为数据库能够理解的格式，并调用"写入数据库"的工具，完成自动录入。

通过上面的例子，看一下核心理论框架。

模块一：模型 (Models)

负责思考、理解、推理和决策。
- 大语言模型 (LLMs) ：核心大脑。负责生成文本、提取信息，以及决定何时调用什么工具 (tool use)。
- 其他 AI 模型 (Other AI models)：辅助大脑。专门处理非纯文本的任务，例如把 PDF 转成文字、语音转文字、或者分析图片。
模块二：工具 (Tools)

让 AI 能够打破封闭环境，与外部世界交互。
- API 接口：让 AI 可以执行具体动作，比如进行网络搜索（之前写论文的例子）、获取实时数据、发邮件（之前客服的例子）、查日历等。
- 信息检索 (Information retrieval)：相当于 AI 的"外部记忆库"。让 AI 可以查询企业私有数据库，或者使用 RAG技术调取专业文档，确保回答精准无误。
- 代码执行 (Code execution)：大模型本身算数不好，所以给它配备代码执行环境或计算器工具，用来做精准的数据分析和数学计算。

构建智能体工作流的关键技能之一，就是分析别人做的事情并识别可以用哪些独立步骤来实现 。

在分析每一个独立的步骤时，可以问自己一个问题："这个步骤能否用大语言模型实现，或者用我能访问的API或函数调用来实现 ？

如果答案是否定的，那么反问自己"如果我是人类，该如何完成这一步，是否可以进一步拆解这个步骤，分解成更小的步骤，这样也许更适合用大语言模型或者软件工具实现！"

如果这篇文章对你有帮助，欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力！