声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

下面主要通过举几个例子,来展示如何将这些有用的行为拆解为代理式流程的离散步骤
例子1:写一篇文章

该图片展示了使用大型语言模型完成复杂任务时,两种不同工作流的对比。说明了智能体工作流比单次直接提示能产生更高质量的结果
- 传统的单次提示方法(图片上半部分)
- 直接给 AI 下达一个宽泛的指令:"写一篇关于主题 X 的论文(Write an essay on topic X)"
- LLM 仅通过一次计算,直接生成最终的文章。
- 如右侧文字所述,这种方法生成的文章通常只停留在表面层次(Surface level) ,并且只能涵盖一些显而易见的事实(Covers obvious facts only),缺乏深度和严谨性。
- 迭代式智能体工作流(图片下半部分)
这种方式将这个任务拆解为了5个步骤:- 第 1 步:写大纲(Write an essay outline) 首先让 LLM 针对主题 X 规划文章结构和核心观点。
- 第 2 步:网络搜索(Search web) 使用 LLM 配合网络搜索工具(Web search),查阅相关资料,为文章提供事实支撑。
- 第 3 步:写初稿(Write a first draft) 基于前面的大纲和搜索到的资料,让 LLM 生成第一版草稿。(可以看到划掉了"Write the essay(写论文)"并改为"初稿",强调这并不是最终成品。)
- 第 4 步:审查与反思(Consider what parts need revision) 让 LLM 作为审查的角色,评估初稿中哪些部分需要修改。
- 第 5 步:修改草稿(Revise your draft) 根据第 4 步的反思意见,让 LLM 重新打磨和修改文章,最终输出高质量的定稿。
总结一下将论文写作分解为各个步骤

- 直接生成 (Direct generation)
- 只用一步,直接让 AI "写一篇关于主题 X 的论文"。
- 只能得到表面化、缺乏深度的内容。不够好。
- 三步工作流 (3-step workflow)
- 进行了一定程度的拆解:写大纲、网络搜索(查资料)、直接写出论文。
- 虽然加入了规划(大纲)和事实补充(搜索),比第一种方法强。但它仍然在获取资料后一次性输出了成品,缺乏打磨的过程,还是不够好
- 五步工作流 (5-step workflow)
- 这种方式最完善:写大纲、网络搜索、写初稿 、思考哪些部分需要修改 、修改草稿。
例子2:回复基础客户订单咨询

场景:系统收到了一封客户投诉邮件。
- 问题:发错货了(订了蓝色搅拌机,收到了红色烤面包机)。
- 关键信息:包含具体的订单号(Order #8847)。
- 情绪/紧迫性:客户急需这个产品参加周末女儿的生日派对。
为了妥善处理这封邮件,AI 智能体被设计为执行以下三个步骤:
- 第 1 步:提取关键信息 (Extract key information)
- 使用大模型 (LLM)
- LLM 阅读邮件,提取出需要跟进的核心数据,例如:订单号 #8847、客户原本想要的商品、实际收到的商品,以及紧急程度。
- 第 2 步:查找相关客户记录 (Find relevant customer records)
- 大模型 (LLM) + 订单数据库查询工具 (orders database query)
- LLM 无法凭空知道订单详情,所以它会利用提取出的"订单号 #8847",调用系统的数据库查询工具,去核实订单状态、客户地址、是否有库存等真实信息。防止幻觉的影响
- 第 3 步:撰写并发送回复 (Write and send response)
- 大模型 (LLM) + 发送邮件工具 (send email)
- 综合邮件的上下文和从数据库查到的真实记录,LLM 拟定一封安抚客户并提供解决方案的邮件,最后直接调用邮件发送工具完成任务闭环。
这个例子展示了高级 AI 智能体的运作方式。它不仅能进行语言理解和文本生成,还能像人类员工一样,使用特定的业务工具(如查询数据库、操作邮件系统),从而将纯文本处理转化为能实际解决业务问题的自动化流程。
例子3:发票处理

这是一个非常典型的企业办公自动化例子,展示了 AI 如何处理结构化/半结构化数据:
- 任务背景:收到一张供应商的发票(左侧图片),需要将其录入公司的财务系统。
- 第 1 步:提取所需信息 (Find required information)
- 执行者:大语言模型 (LLM) 或多模态模型。
- AI "阅读"这张发票,准确提取出公司名称(TechFlow Solutions LLC)、金额($3000)、日期等关键字段。
- 第 2 步:创建新的数据库条目并保存 (Create a new database entry and save)
- 执行者 :大模型 (LLM) + 更新数据库工具 (update database)。
- AI 将提取好的信息转化为数据库能够理解的格式,并调用"写入数据库"的工具,完成自动录入。
通过上面的例子,看一下核心理论框架。
核心理论框架(你拥有哪些构建模块?)

-
模块一:模型 (Models)
负责思考、理解、推理和决策。
- 大语言模型 (LLMs) :核心大脑。负责生成文本、提取信息,以及决定何时调用什么工具 (tool use)。
- 其他 AI 模型 (Other AI models):辅助大脑。专门处理非纯文本的任务,例如把 PDF 转成文字、语音转文字、或者分析图片。
-
模块二:工具 (Tools)
让 AI 能够打破封闭环境,与外部世界交互。
- API 接口:让 AI 可以执行具体动作,比如进行网络搜索(之前写论文的例子)、获取实时数据、发邮件(之前客服的例子)、查日历等。
- 信息检索 (Information retrieval):相当于 AI 的"外部记忆库"。让 AI 可以查询企业私有数据库,或者使用 RAG技术调取专业文档,确保回答精准无误。
- 代码执行 (Code execution):大模型本身算数不好,所以给它配备代码执行环境或计算器工具,用来做精准的数据分析和数学计算。
总结
构建智能体工作流的关键技能之一,就是分析别人做的事情并识别可以用哪些独立步骤来实现 。
在分析每一个独立的步骤时,可以问自己一个问题:"这个步骤能否用大语言模型实现,或者用我能访问的API或函数调用来实现 ?
如果答案是否定的,那么反问自己"如果我是人类,该如何完成这一步,是否可以进一步拆解这个步骤,分解成更小的步骤,这样也许更适合用大语言模型或者软件工具实现!"
如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!