声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

本篇主要是介绍一些评智能体AI的评估手段。
发现低质量输出 (Look for low-quality outputs)

这是一个基于大语言模型的客户服务自动化工作流示例,并指出了系统中可能出现的"低质量输出"问题。
- 业务场景: 客户发邮件抱怨收到了错误的商品(订了蓝色搅拌机,却收到了红色烤面包机),并急需解决。
- AI 工作流设计:
- 使用 LLM 提取邮件中的关键信息。
- 使用 LLM 结合"订单数据库查询"工具查找相关客户记录。
- 使用 LLM 结合"发送邮件"工具撰写并发送回复。
- 问题所在(低质量输出): 幻灯片底部展示了两个 AI 生成的糟糕回复示例。这两个回复虽然解决了退款问题,但都包含了极不专业的言论。
- 例如"我们比竞争对手 CompCo 好多了!"或"不像 RivalCo,我们退货很容易"。这种随意拉踩竞争对手的行为在商业回复中是不好的。
最佳实践:先构建系统,然后检查它,找出哪些地方还不令人满意,再寻找评估和改进系统的方法,消除这些不满意的表现
添加评估以追踪错误 (Add an evaluation to track the error)

这个图主要是针对上一张图中出现的"拉踩竞争对手"的低质量输出问题,采用了一种客观的程序化评估方法。
- 建立黑名单: 创建一个已知竞争对手的列表(如 CompCo, RivalCo, The Other Co 等)。
- 客观错误追踪(Objective Error): 不依赖 AI 去判断文本语气,而是直接在系统中加入一段简单的代码逻辑(如伪代码:
if (competitor in response): num_competitor_mentions += 1)。 - 核心思想: 通过代码直接检查AI 生成的回复中是否包含竞争对手的名字。如果出现了,就记录一次错误。这是一种确定性的的客观评估手段,非常适合捕捉特定词汇或明确的格式错误。
使用 LLM 作为裁判 (Using LLM as a judge)

这个图主要展示的是主观评估的方式。(利用LLM进行评估)
- Agent 工作流: 接收用户查询 -> LLM 调用网页搜索 -> LLM 提取最佳的 5 个信息源 -> LLM 撰写论文草稿。
- 评估挑战: 一篇论文的好坏无法用简单的代码(如检查某个词是否出现)来衡量,它涉及逻辑、连贯性、内容深度等主观因素。
- LLM-as-a-judge 模式: 解决方法是引入另一个 LLM作为"裁判"。给这个裁判 LLM 设定一个提示词(Prompt),例如:"为以下论文分配一个 1 到 5 之间的质量分数,5 代表最好:{essay}"。
- 结果: 裁判 LLM 会阅读生成的论文并给出一个综合评分。右下角的表格展示了不同主题(黑洞、机器人收割)在通过该工作流后得到的不同评估分数。这就是所谓的主观评估。
评估代理式 AI 总结 (Evaluating Agentic AI)

这个图是对前面内容的提炼和系统性总结。
-
两种评估手段:
- 客观评估(Objective evals): 使用代码进行明确的规则检查(如前面检查是否包含竞争对手名字)。
- 主观评估(Subjective evals): 使用 LLM 作为裁判,对内容质量、语气、逻辑等复杂维度进行打分。
-
两个评估层级:
- 端到端评估(End-to-end): 评估整个系统从用户输入到最终输出的整体表现(例如给最终写好的论文打分)。
- 组件级评估(Component-level): 评估工作流中每一个中间步骤的表现(例如单独评估"提取客户订单号"这一步是否准确)。
-
错误分析(Error analysis): 强调了需要检查代理 AI 的执行轨迹(Traces)。由于 Agent 通常会进行多步推理和工具调用,当最终结果出错时,必须回头检查它中间每一步的想法和操作轨迹,才能找出是哪个环节导致了失败。
具备评估和错误分析能力是非常关键的技能,会在后面详解~
如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!