经验贴：Agent实战落地踩坑六大经验教训，保姆教程。

麦肯锡报告解读：《One year of agentic AI: Six lessons from the people doing the work》

报告我帮你们看过了，我将报告核心洞察与我的亲身实践相融合，整理了6000字干货。

无论您是正在规划首个Agent（智能体）项目的决策者，还是身处一线的AI产品经理或开发者，希望这些内容为您拨开迷雾，指引方向。

内容与麦肯锡报告中的六大经验教训相结合，无论是你否在开发Agent都值得一看。

一：与智能体无关、与工作流程有关

我们希望落地的智能体，通常有这样的一个定义：

智能体是一种基于生成式人工智能基础模型的系统，能够在现实世界中行动并执行多步骤流程。

智能体可以自动化执行复杂任务，而这些任务通常需要运用自然语言处理，且原本需要人类执行和处理。

让智能体代替人工，这就是我们追求的结果。

而在追求这个结果的过程中，我们更应该关注的是流程的变革，而不是智能体的落地。

再说一遍，不要着急落地智能体！流程不够完善的情况下，大概率会得到一个智障，而不是一个智能体。

真正实现业务价值的关键是变革工作流。

错误思路：做个Agent实现企业当前的业务工作流程。

正确思路：围绕Agent把企业业务工作流程重新设计。

我们需重新设计涵盖人、流程、技术的完整工作流，先梳理流程、识别用户痛点，并设计智能体与人类的反馈协同机制。

例如保险行业可通过规则系统、分析型 AI、生成式 AI 与智能体的组合，重构理赔等复杂工作流。

在重新设计工作流程时，一个重要起点是绘制流程图 并识别用户的痛点。

这一步在设计智能体系统时至关重要，这类系统能够减少不必要的工作，让智能体和人类得以协作，更高效、更有效地实现业务目标。

这种协作可以通过学习循环和反馈机制来实现，从而构建一个完善的Agent。

在Agent的众多落地应用技术中，能让团队在恰当的节点使用合适的技术，这在对复杂、多步骤的工作流程进行重新设计时尤为重要。

如何设计提示词工程，大量提示词的组合、联动、迭代
要如何设计工具列表，function call 和提示词如何结合
RAG系统如何在Agent中落地，应用在哪些节点，是否需要和function call结合使用
workflow应该如何设计，
微调是否有必要加入，要如何抉择

等等内容，在恰当的节点使用合适的技术，我们的Agent才能达到我们的预期效果。

画三个重点，来说明一下Agent流程设计对于AI产品经理的重要性：

对于AI产品经理来说，"这个需求我就要，怎么实现我不管"的年代彻底过去了。AI产品你必须要告知开发明确的流程实现，否则你什么都得不到。
AI产品经理要对AI产品的结果负责，在整个流程中的任意一个节点出现问题，都会导致输出结果差异巨大。所以清晰的指导智能体中每一个步骤的执行逻辑，更有助于对结果进行优化。
由于延续了大模型的特性，AI产品也具有一定的不可解释性，对于错误的结果，我们修正Agent流程，通常都是我们最后的手段。

二：智能体并非总能解决问题（智能体的选择与协作）

认真思考：高方差（结果不稳定、不统一）、低标准化的任务和低方差、高标准化的任务，哪一类任务更适合用Agent来代替人工。

我在做1V1培训的时候，AI产品的需求挖掘环节，一定要再三强调的一句话：当需求能用AI且只能用AI完成时，才是一个AI的需求

这里有两个重点：能用AI 和只能用AI

例如：

把固定格式的文案转换成JSON格式的信息。这就是一个能用AI但不是只能用AI的需求，这就不是一个AI需求

把用户随机输入的query进行分类，然后按照不同类型转换成JSON格式的信息。这就是一个真正的AI需求

当一个任务足够标准化的时候，我们应该更倾向于用固定的程序来执行，既保证准确性，又可以保证执行速度。

所以我们需根据任务特性选择工具，避免盲目使用智能体。

低方差、高标准化的任务适合规则式自动化，高方差、低标准化的任务更适配智能体。

此外，真正的生产环境中，任务通常不是非黑即白的，并不是要么有智能体，要么没有智能体的。

智能体的两层作用：帮助我们完成特定任务、帮助我们更好的开展工作。

千万不要忽略协作的重要性

有些任务如果单纯的用程序实现，可能会耗费很多人力和时间成本。
有些任务无法完全使用程序实现，需要结合一小部分的大模型能力。

在决策时需明确任务的标准化程度，考虑更简单的自动化方案（如 LLM 提示词），而非陷入 "非智能体即无智能体" 的二元思维。

三：杜绝 "AI 糟粕"，重视评估与信任

很多智能体在演示中表现亮眼，但实际使用中输出质量低（即 "AI 糟粕"），导致用户信任流失。

是的，相信大家一定见过非常多了了，推广软文看了觉得这可太NB了，等体验完就发现不过又是一个垃圾桶里的东西罢了。

麦肯锡报告表示：AI产品需要有持续的测试、监督才能确保效果，保证不断进步，需像培养员工一样培育智能体，明确其 "岗位职责"，通过细化的评估标准（如任务成功率、检索准确率、幻觉率）持续优化，专家需全程参与测试，避免 "一上线就不管"。

以下是在决定为不同任务使用哪种人工智能工具时的指南：

如果任务是基于规则且重复性的，并且有结构化输入（例如数据录入），请使用基于规则的自动化。
如果输入是非结构化的（例如，冗长的文档），但任务仍然是抽取式或生成式的，请使用生成式人工智能、自然语言处理或预测分析。
如果任务涉及根据过往数据进行分类或预测，请使用预测分析或生成式人工智能。
如果输出需要综合、判断或创造性解读，请使用生成式人工智能。
如果任务涉及多步骤决策，并且存在大量输入和上下文高度可变的情况，请使用AI智能体。

以下是一些用于评估智能体性能的典型评估方法：

任务成功率（端到端）。任务成功率衡量的是无需升级处理或人工干预即可正确完成的工作流所占的百分比，这反映了实际应用价值。

F1分数/精确率和召回率。该指标平衡了假阳性和假阴性，使其在分类、提取以及具有明确可衡量结果（即是或否）的决策准确性任务中非常有用。
检索准确性。检索准确性是指检索到的正确文档、事实或证据相对于基准数据集的百分比，这对于检索增强型工作流程至关重要。
语义相似度。语义相似度是通过生成输出与参考输出之间基于嵌入的余弦相似度来衡量的，它捕捉的是超越精确词语匹配的意义对齐。

将大语言模型（LLM）用作评判者，就是根据黄金标准或人类偏好来评估输出结果。这一指标在用于评估清晰度、有用性和推理合理性等主观性判断时，具有很好的可扩展性。

偏差检测（通过混淆矩阵）。偏差检测利用混淆矩阵来衡量不同用户群体在结果上的系统性差异，这些矩阵能凸显偏差的表现之处（例如，假阴性对某一群体的影响过大）。
幻觉率。该指标用于跟踪事实错误或无依据声明的出现频率，以确保智能体输出内容的可信度。
校准误差（置信度与准确度）。校准误差用于衡量智能体的置信度分数是否与实际正确性相符，这在对风险敏感的工作流程中十分重要。

四：让追踪和验证每一步都变得简单

当企业仅部署少数智能体时，人工排查错误尚可应对；但随着智能体数量增至数百、数千个，仅追踪最终结果的传统方式，会让错误定位变得如同 "大海捞针"。

因此我们需在工作流中嵌入监控与评估机制，实时验证每一步表现。

这里我们额外说说，如何实现一个AI产品的评估反馈系统。

评估反馈系统是AI产品的三个辅助系统之一，主要目标是长期持续的监控我们的AI产品。

为什么会有这样的一个辅助系统？

主要原因是：AI产品出现问题后具有非常强的隐蔽性。

例如：现在线上跑着我们调试好的客服机器人，但是假设当前时间我们的机器人出问题了，它在跟我们的用户闲聊、扯淡，但是就是不回答它应该回答的问题。

我们的客服是否还在正常回复问题
我们的客服是否越权了
我们的客服是否泄露隐私信息了
等等....

如果没有反馈，我们就无法知道是否发生了这样的事情。

就像传统的产品，404了、502了、程序崩溃了，这些都有监控系统随时通知，我们AI对话也需要有监控系统。

维度	细分指标/场景	具体说明/工具/指标
准确性	明确的答案	测试数据集的query与answer直接比对
	非明确答案	测试数据集的query、参考文案、打分体系；使用BLEU（词汇匹配度）、ROUGE（摘要质量）评估
响应时间	首包响应时间	大模型最终回复的模型，影响用户体验
	平均响应时长	宏观把控响应效率
	报警逻辑	一段时间内，出现的百分比累计出现次数（如5分钟内，出现了50%/80次）
执行节点信息	错误原因分析	保留每个节点的执行信息，分为大模型原因（错误码、提示词）、程序原因（json格式兼容）、环境原因（502）
消耗	调用次数	成功次数、失败次数
	RPM	每分钟请求数，体现单位时间请求负载
	TPM	每分钟Token数，衡量文本处理吞吐量
	tokens	文本处理的基础单元消耗数量，关联成本与性能