【Agent智能体6 | 智能体AI评估】

声明：本篇博客是以吴恩达的【Agent智能体】教程为基础，并对其中的内容做了笔记整理以及个人收获的总结。

本篇主要是介绍一些评智能体AI的评估手段。

这是一个基于大语言模型的客户服务自动化工作流示例，并指出了系统中可能出现的"低质量输出"问题。

业务场景： 客户发邮件抱怨收到了错误的商品（订了蓝色搅拌机，却收到了红色烤面包机），并急需解决。
AI 工作流设计：
1. 使用 LLM 提取邮件中的关键信息。
2. 使用 LLM 结合"订单数据库查询"工具查找相关客户记录。
3. 使用 LLM 结合"发送邮件"工具撰写并发送回复。
问题所在（低质量输出）： 幻灯片底部展示了两个 AI 生成的糟糕回复示例。这两个回复虽然解决了退款问题，但都包含了极不专业的言论。
- 例如"我们比竞争对手 CompCo 好多了！"或"不像 RivalCo，我们退货很容易"。这种随意拉踩竞争对手的行为在商业回复中是不好的。

最佳实践：先构建系统，然后检查它，找出哪些地方还不令人满意，再寻找评估和改进系统的方法，消除这些不满意的表现

这个图主要是针对上一张图中出现的"拉踩竞争对手"的低质量输出问题，采用了一种客观的程序化评估方法。

建立黑名单： 创建一个已知竞争对手的列表（如 CompCo, RivalCo, The Other Co 等）。
客观错误追踪（Objective Error）： 不依赖 AI 去判断文本语气，而是直接在系统中加入一段简单的代码逻辑（如伪代码：if (competitor in response): num_competitor_mentions += 1）。
核心思想： 通过代码直接检查AI 生成的回复中是否包含竞争对手的名字。如果出现了，就记录一次错误。这是一种确定性的的客观评估手段，非常适合捕捉特定词汇或明确的格式错误。

这个图主要展示的是主观评估的方式。（利用LLM进行评估）

Agent 工作流： 接收用户查询 -> LLM 调用网页搜索 -> LLM 提取最佳的 5 个信息源 -> LLM 撰写论文草稿。
评估挑战： 一篇论文的好坏无法用简单的代码（如检查某个词是否出现）来衡量，它涉及逻辑、连贯性、内容深度等主观因素。
LLM-as-a-judge 模式： 解决方法是引入另一个 LLM作为"裁判"。给这个裁判 LLM 设定一个提示词（Prompt），例如："为以下论文分配一个 1 到 5 之间的质量分数，5 代表最好：{essay}"。
结果： 裁判 LLM 会阅读生成的论文并给出一个综合评分。右下角的表格展示了不同主题（黑洞、机器人收割）在通过该工作流后得到的不同评估分数。这就是所谓的主观评估。

这个图是对前面内容的提炼和系统性总结。

两种评估手段：
- 客观评估（Objective evals）： 使用代码进行明确的规则检查（如前面检查是否包含竞争对手名字）。
- 主观评估（Subjective evals）： 使用 LLM 作为裁判，对内容质量、语气、逻辑等复杂维度进行打分。
两个评估层级：
- 端到端评估（End-to-end）： 评估整个系统从用户输入到最终输出的整体表现（例如给最终写好的论文打分）。
- 组件级评估（Component-level）： 评估工作流中每一个中间步骤的表现（例如单独评估"提取客户订单号"这一步是否准确）。
错误分析（Error analysis）： 强调了需要检查代理 AI 的执行轨迹（Traces）。由于 Agent 通常会进行多步推理和工具调用，当最终结果出错时，必须回头检查它中间每一步的想法和操作轨迹，才能找出是哪个环节导致了失败。

具备评估和错误分析能力是非常关键的技能，会在后面详解~

如果这篇文章对你有帮助，欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力！