【Agent智能体6 | 智能体AI评估】

声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

本篇主要是介绍一些评智能体AI的评估手段。

发现低质量输出 (Look for low-quality outputs)

这是一个基于大语言模型的客户服务自动化工作流示例,并指出了系统中可能出现的"低质量输出"问题。

  • 业务场景: 客户发邮件抱怨收到了错误的商品(订了蓝色搅拌机,却收到了红色烤面包机),并急需解决。
  • AI 工作流设计:
    1. 使用 LLM 提取邮件中的关键信息。
    2. 使用 LLM 结合"订单数据库查询"工具查找相关客户记录。
    3. 使用 LLM 结合"发送邮件"工具撰写并发送回复。
  • 问题所在(低质量输出): 幻灯片底部展示了两个 AI 生成的糟糕回复示例。这两个回复虽然解决了退款问题,但都包含了极不专业的言论。
    • 例如"我们比竞争对手 CompCo 好多了!"或"不像 RivalCo,我们退货很容易"。这种随意拉踩竞争对手的行为在商业回复中是不好的。

最佳实践:先构建系统,然后检查它,找出哪些地方还不令人满意,再寻找评估和改进系统的方法,消除这些不满意的表现

添加评估以追踪错误 (Add an evaluation to track the error)

这个图主要是针对上一张图中出现的"拉踩竞争对手"的低质量输出问题,采用了一种客观的程序化评估方法

  • 建立黑名单: 创建一个已知竞争对手的列表(如 CompCo, RivalCo, The Other Co 等)。
  • 客观错误追踪(Objective Error): 不依赖 AI 去判断文本语气,而是直接在系统中加入一段简单的代码逻辑(如伪代码:if (competitor in response): num_competitor_mentions += 1)。
  • 核心思想: 通过代码直接检查AI 生成的回复中是否包含竞争对手的名字。如果出现了,就记录一次错误。这是一种确定性的的客观评估手段,非常适合捕捉特定词汇或明确的格式错误。

使用 LLM 作为裁判 (Using LLM as a judge)

这个图主要展示的是主观评估的方式。(利用LLM进行评估)

  • Agent 工作流: 接收用户查询 -> LLM 调用网页搜索 -> LLM 提取最佳的 5 个信息源 -> LLM 撰写论文草稿。
  • 评估挑战: 一篇论文的好坏无法用简单的代码(如检查某个词是否出现)来衡量,它涉及逻辑、连贯性、内容深度等主观因素。
  • LLM-as-a-judge 模式: 解决方法是引入另一个 LLM作为"裁判"。给这个裁判 LLM 设定一个提示词(Prompt),例如:"为以下论文分配一个 1 到 5 之间的质量分数,5 代表最好:{essay}"。
  • 结果: 裁判 LLM 会阅读生成的论文并给出一个综合评分。右下角的表格展示了不同主题(黑洞、机器人收割)在通过该工作流后得到的不同评估分数。这就是所谓的主观评估

评估代理式 AI 总结 (Evaluating Agentic AI)

这个图是对前面内容的提炼和系统性总结。

  • 两种评估手段:

    • 客观评估(Objective evals): 使用代码进行明确的规则检查(如前面检查是否包含竞争对手名字)。
    • 主观评估(Subjective evals): 使用 LLM 作为裁判,对内容质量、语气、逻辑等复杂维度进行打分。
  • 两个评估层级:

    • 端到端评估(End-to-end): 评估整个系统从用户输入到最终输出的整体表现(例如给最终写好的论文打分)。
    • 组件级评估(Component-level): 评估工作流中每一个中间步骤的表现(例如单独评估"提取客户订单号"这一步是否准确)。
  • 错误分析(Error analysis): 强调了需要检查代理 AI 的执行轨迹(Traces)。由于 Agent 通常会进行多步推理和工具调用,当最终结果出错时,必须回头检查它中间每一步的想法和操作轨迹,才能找出是哪个环节导致了失败。

    具备评估和错误分析能力是非常关键的技能,会在后面详解~

如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!

相关推荐
Raink老师7 小时前
【AI面试临阵磨枪-68】设计一个端侧(手机 / 浏览器)轻量化 AI Agent 系统
人工智能·面试·智能手机
wuxinyan1237 小时前
工业级大模型学习之路021:LangChain零基础入门教程(第四篇):文档加载与文本分块技术
人工智能·python·学习·langchain
oo哦哦7 小时前
企业级矩阵管理中台:从“人海战术“到“AI智能增长“的架构演进与实践解析
人工智能·矩阵·架构·轻量化中台
tedcloud1237 小时前
academic-research-skills部署教程:构建AI辅助科研环境
服务器·人工智能·word·excel·dreamweaver
IT_陈寒7 小时前
Java的Optional差点让我掉坑里,这几个坑你别踩
前端·人工智能·后端
编码时空的诗意行者7 小时前
那些全新的Prompt范式(新提示词工程新思维)
人工智能·prompt·ai编程
用户5191495848458 小时前
FortiGate 身份验证绕过漏洞利用工具包 (CVE-2024-55591 & CVE-2025-24472)
人工智能·aigc
超人也会哭️呀8 小时前
摩尔定律已成过去,韬τ定律引领未来
人工智能·华为·ai·芯片·韬定律·τ定律·摩尔定律
程序员柒叔8 小时前
Graphify——理念不错、社区火但有硬伤的工具
人工智能·大模型·github·知识库