经验贴:Agent实战落地踩坑六大经验教训,保姆教程。

麦肯锡报告解读:《One year of agentic AI: Six lessons from the people doing the work》

报告我帮你们看过了,我将报告核心洞察与我的亲身实践相融合,整理了6000字干货。

无论您是正在规划首个Agent(智能体)项目的决策者,还是身处一线的AI产品经理或开发者,希望这些内容为您拨开迷雾,指引方向。

内容与麦肯锡报告中的六大经验教训相结合,无论是你否在开发Agent都值得一看。

一:与智能体无关、与工作流程有关

我们希望落地的智能体,通常有这样的一个定义:

智能体是一种基于生成式人工智能基础模型的系统,能够在现实世界中行动并执行多步骤流程。

智能体可以自动化执行复杂任务,而这些任务通常需要运用自然语言处理,且原本需要人类执行和处理

让智能体代替人工,这就是我们追求的结果。

而在追求这个结果的过程中,我们更应该关注的是流程的变革,而不是智能体的落地。

再说一遍,不要着急落地智能体!流程不够完善的情况下,大概率会得到一个智障,而不是一个智能体。

真正实现业务价值的关键是变革工作流

错误思路:做个Agent实现企业当前的业务工作流程。

正确思路:围绕Agent把企业业务工作流程重新设计。

我们需重新设计涵盖人、流程、技术的完整工作流,先梳理流程、识别用户痛点,并设计智能体与人类的反馈协同机制。

  • 例如保险行业可通过规则系统、分析型 AI、生成式 AI 与智能体的组合,重构理赔等复杂工作流。

在重新设计工作流程时,一个重要起点是绘制流程图识别用户的痛点

这一步在设计智能体系统时至关重要,这类系统能够减少不必要的工作,让智能体和人类得以协作,更高效、更有效地实现业务目标。

这种协作可以通过学习循环和反馈机制来实现,从而构建一个完善的Agent。

在Agent的众多落地应用技术中,能让团队在恰当的节点使用合适的技术,这在对复杂、多步骤的工作流程进行重新设计时尤为重要。

  • 如何设计提示词工程,大量提示词的组合、联动、迭代
  • 要如何设计工具列表,function call 和 提示词如何结合
  • RAG系统如何在Agent中落地,应用在哪些节点,是否需要和function call结合使用
  • workflow应该如何设计,
  • 微调是否有必要加入,要如何抉择

等等内容,在恰当的节点使用合适的技术,我们的Agent才能达到我们的预期效果。

画三个重点,来说明一下Agent流程设计对于AI产品经理的重要性:

  1. 对于AI产品经理来说,"这个需求我就要,怎么实现我不管"的年代彻底过去了。AI产品你必须要告知开发明确的流程实现,否则你什么都得不到。

  2. AI产品经理要对AI产品的结果负责,在整个流程中的任意一个节点出现问题,都会导致输出结果差异巨大。所以清晰的指导智能体中每一个步骤的执行逻辑,更有助于对结果进行优化。

  3. 由于延续了大模型的特性,AI产品也具有一定的不可解释性,对于错误的结果,我们修正Agent流程,通常都是我们最后的手段。

二:智能体并非总能解决问题(智能体的选择与协作)

认真思考:高方差(结果不稳定、不统一)、低标准化的任务低方差、高标准化的任务,哪一类任务更适合用Agent来代替人工。

我在做1V1培训的时候,AI产品的需求挖掘环节,一定要再三强调的一句话:当需求能用AI且只能用AI完成时,才是一个AI的需求

这里有两个重点:能用AI 和 只能用AI

例如:

把固定格式的文案转换成JSON格式的信息。这就是一个能用AI但不是只能用AI的需求,这就不是一个AI需求

把用户随机输入的query进行分类,然后按照不同类型转换成JSON格式的信息。这就是一个真正的AI需求

当一个任务足够标准化的时候,我们应该更倾向于用固定的程序来执行,既保证准确性,又可以保证执行速度。

所以我们需根据任务特性选择工具,避免盲目使用智能体。

低方差、高标准化的任务适合规则式自动化,高方差、低标准化的任务更适配智能体。

此外,真正的生产环境中,任务通常不是非黑即白的,并不是要么有智能体,要么没有智能体的。

智能体的两层作用:帮助我们完成特定任务、帮助我们更好的开展工作。

千万不要忽略协作的重要性

  1. 有些任务如果单纯的用程序实现,可能会耗费很多人力和时间成本。
  2. 有些任务无法完全使用程序实现,需要结合一小部分的大模型能力。

在决策时需明确任务的标准化程度,考虑更简单的自动化方案(如 LLM 提示词),而非陷入 "非智能体即无智能体" 的二元思维。

三:杜绝 "AI 糟粕",重视评估与信任

很多智能体在演示中表现亮眼,但实际使用中输出质量低(即 "AI 糟粕"),导致用户信任流失。

是的,相信大家一定见过非常多了了,推广软文看了觉得这可太NB了,等体验完就发现不过又是一个垃圾桶里的东西罢了。

麦肯锡报告表示:AI产品需要有持续的测试、监督才能确保效果,保证不断进步,需像培养员工一样培育智能体,明确其 "岗位职责",通过细化的评估标准(如任务成功率、检索准确率、幻觉率)持续优化,专家需全程参与测试,避免 "一上线就不管"。

以下是在决定为不同任务使用哪种人工智能工具时的指南:

  • 如果任务是基于规则且重复性的,并且有结构化输入(例如数据录入),请使用基于规则的自动化。
  • 如果输入是非结构化的(例如,冗长的文档),但任务仍然是抽取式或生成式的,请使用生成式人工智能、自然语言处理或预测分析。
  • 如果任务涉及根据过往数据进行分类或预测,请使用预测分析或生成式人工智能。
  • 如果输出需要综合、判断或创造性解读,请使用生成式人工智能。
  • 如果任务涉及多步骤决策,并且存在大量输入和上下文高度可变的情况,请使用AI智能体。

以下是一些用于评估智能体性能的典型评估方法:

  1. 任务成功率(端到端)。任务成功率衡量的是无需升级处理或人工干预即可正确完成的工作流所占的百分比,这反映了实际应用价值。
  • F1分数/精确率和召回率。该指标平衡了假阳性和假阴性,使其在分类、提取以及具有明确可衡量结果(即是或否)的决策准确性任务中非常有用。
  • 检索准确性。检索准确性是指检索到的正确文档、事实或证据相对于基准数据集的百分比,这对于检索增强型工作流程至关重要。
  • 语义相似度。语义相似度是通过生成输出与参考输出之间基于嵌入的余弦相似度来衡量的,它捕捉的是超越精确词语匹配的意义对齐。
  1. 将大语言模型(LLM)用作评判者,就是根据黄金标准或人类偏好来评估输出结果。这一指标在用于评估清晰度、有用性和推理合理性等主观性判断时,具有很好的可扩展性。
  • 偏差检测(通过混淆矩阵)。偏差检测利用混淆矩阵来衡量不同用户群体在结果上的系统性差异,这些矩阵能凸显偏差的表现之处(例如,假阴性对某一群体的影响过大)。
  • 幻觉率。该指标用于跟踪事实错误或无依据声明的出现频率,以确保智能体输出内容的可信度。
  • 校准误差(置信度与准确度)。校准误差用于衡量智能体的置信度分数是否与实际正确性相符,这在对风险敏感的工作流程中十分重要。

四:让追踪和验证每一步都变得简单

当企业仅部署少数智能体时,人工排查错误尚可应对;但随着智能体数量增至数百、数千个,仅追踪最终结果的传统方式,会让错误定位变得如同 "大海捞针"。

因此我们需在工作流中嵌入监控与评估机制,实时验证每一步表现。

这里我们额外说说,如何实现一个AI产品的评估反馈系统。

评估反馈系统是AI产品的三个辅助系统之一,主要目标是长期持续的监控我们的AI产品。

为什么会有这样的一个辅助系统?

主要原因是:AI产品出现问题后具有非常强的隐蔽性。

例如:现在线上跑着我们调试好的客服机器人,但是假设当前时间我们的机器人出问题了,它在跟我们的用户闲聊、扯淡,但是就是不回答它应该回答的问题。

  • 我们的客服是否还在正常回复问题
  • 我们的客服是否越权了
  • 我们的客服是否泄露隐私信息了
  • 等等....

如果没有反馈,我们就无法知道是否发生了这样的事情。

就像传统的产品,404了、502了、程序崩溃了,这些都有监控系统随时通知,我们AI对话也需要有监控系统。

维度 细分指标/场景 具体说明/工具/指标
准确性 明确的答案 测试数据集的query与answer直接比对
非明确答案 测试数据集的query、参考文案、打分体系;使用BLEU(词汇匹配度)、ROUGE(摘要质量)评估
响应时间 首包响应时间 大模型最终回复的模型,影响用户体验
平均响应时长 宏观把控响应效率
报警逻辑 一段时间内,出现的百分比累计出现次数(如5分钟内,出现了50%/80次)
执行节点信息 错误原因分析 保留每个节点的执行信息,分为大模型原因(错误码、提示词)、程序原因(json格式兼容)、环境原因(502)
消耗 调用次数 成功次数、失败次数
RPM 每分钟请求数,体现单位时间请求负载
TPM 每分钟Token数,衡量文本处理吞吐量
tokens 文本处理的基础单元消耗数量,关联成本与性能

五:优先打造可复用智能体

为单个任务单独开发智能体会造成冗余浪费,应聚焦可复用性。

识别重复出现的任务,构建集中化的资源平台(含验证服务、可复用代码、训练材料等),让智能体组件能跨工作流使用,可减少 30%-50% 的非必要工作。

识别重复性任务是一个很好的起点。企业可以开发能在不同工作流中轻松复用的智能体及智能体组件,并让开发者能便捷地使用它们。

这包括开发一套集中化的经过验证的服务(如大模型可观测性或预先批准的提示词)和资产(例如,应用模式、可复用代码和培训材料),这些服务和资产要易于查找和使用。

将这些功能整合到一个单一平台中至关重要。根据我们的经验,这有助于减少通常所需的30%到50%的非必要工作。

哦豁,中台再次浮出水面,世界果然是个圈

还是建议大家利用中台来统一管理大模型、提示词、知识库、function call、智能体、测试、评估、日志、权限等。

无论是单部门要开发多智能体、还是多部门要各自开发智能体或者使用大模型。都由中台统一提供大模型的基础能力。

提示词的版本迭代,测试,等操作也完全又提示词工程师在中台完成即可,一套做完,全公司可用。

六:人类仍不可或缺,角色与规模将改变

人类尚有存在的必要。工作流的设计,一定要考虑人类加入工作的便捷性

随着人工智能智能体的不断增多,人类将扮演何种角色这一问题引发了诸多焦虑,

一方面是对工作安全性的担忧,另一方面则是对生产力提升的过高期望。

这导致人们对当今许多工作中人类的角色产生了截然不同的看法。

智能体无法完全替代人类,人类需负责监督模型准确性、处理边缘案例、确保合规等。

工作流变革后,特定流程的人力规模可能下降,但需重新设计人机协作模式

比如通过简洁的可视化界面提升交互效率,明确人类在关键决策中的最终把控权(如律师审核智能体整理的案件核心信息)。

人机协作设计的一个重要部分是开发简单的可视化用户界面,让人们能够轻松与智能体交互。

回到最开始,我们说过要围绕Agent把企业业务工作流程重新设计。现在要再加上一句话工作流程重新设计时,要充分考虑人机协作的必要性和便利性。

结语

Agent的成功,绝非仅仅是技术模型的胜利,而是一场关于工作流程、人机协作与组织变革的系统性工程。

Agent的规模化落地将不再是少数科技巨头的游戏,而是每一个致力于智能化转型企业的必修课。 前方的道路已然清晰:

对于决策者,首要任务是为这场变革扫清障碍,投资于可复用的平台建设,并推动跨部门的流程重塑。

对于AI产品经理与开发者,需要兼具技术理解与业务洞察,成为连接智能世界与真实需求的桥梁,用严谨的流程设计和细致的评估体系,将Agent的潜力转化为实实在在的业务价值。

这场由Agent引领的变革,其终点并非一个"无人化"的工厂,而是一个人机协同、高效共进的新工作范式。

现在,正是我们放下对技术的盲目崇拜,回归业务本质,用智慧和匠心去设计和构建这一新范式的最佳时机。

我是华洛,关注我,学习更多AI落地的实战经验与技巧。

加油,共勉。

☺️你好,我是华洛,All in AI多年,专注于AI在产品侧的落地与应用和全自动化AI员工的研发。

你可以在这里联系我👉www.yuque.com/hualuo-fztn...

专栏文章

# 聊聊我们公司的AI应用工程师每天都干啥?

# SEO还没死,GEO之战已经开始

# 从0到1打造企业级AI售前机器人------实战指南二:RAG工程落地之数据处理篇🧐

# 从0到1打造企业级AI售前机器人------实战指南一:根据产品需求和定位进行agent流程设计🧐

# 聊一下MCP,希望能让各位清醒一点吧🧐

# 实战派!百万PV的AI产品如何搭建RAG系统?

# 团队落地AI产品的全流程

# 5000字长文,AI时代下程序员的巨大优势!

相关推荐
luckyzlb2 小时前
03-node.js & webpack
前端·webpack·node.js
左耳咚2 小时前
如何解析 zip 文件
前端·javascript·面试
程序员小寒2 小时前
前端高频面试题之Vue(初、中级篇)
前端·javascript·vue.js
陈辛chenxin2 小时前
软件测试大赛Web测试赛道工程化ai提示词大全
前端·可用性测试·测试覆盖率
沿着路走到底2 小时前
python 判断与循环
java·前端·python
Code知行合壹2 小时前
AJAX和Promise
前端·ajax
大菠萝学姐2 小时前
基于springboot的旅游攻略网站设计与实现
前端·javascript·vue.js·spring boot·后端·spring·旅游
心随雨下3 小时前
TypeScript中extends与implements的区别
前端·javascript·typescript
摇滚侠3 小时前
Vue 项目实战《尚医通》,底部组件拆分与静态搭建,笔记05
前端·vue.js·笔记·vue