36|RAG 评测与回归:命中率、覆盖率、引用正确性

到上一篇为止,你的 RAG(检索增强生成)系统已经跑通了。你随机问了几个问题,发现它答得还不错,于是准备满心欢喜地向老板汇报上线。

等一下!

在工程化领域,有一种错觉叫"我感觉它挺好用的"。

如果明天你换了一个更便宜的 Embedding 向量模型,或者调整了 Chunk 的切分大小,你怎么知道系统是变聪明了,还是变笨了?难道再人工去测 100 个问题吗?

企业级应用决不允许"凭感觉"上线。我们必须引入一套自动化的**评测(Evaluation)**机制。本篇作为卷 4(知识与数据)的收官之作,我们将教你如何用科学的指标给 RAG 系统打分。


1. 核心比喻:如何给一场"开卷考试"打分?

我们在第 30 篇说过,RAG 本质上是一场"开卷考试"。

评价一个学生开卷考试考得好不好,不能只看他最后写的答案对不对,而是要分两步看:

  1. 检索阶段(翻书):他有没有翻到正确的那一页?(如果书翻错了,哪怕答案写得再漂亮,也是零分)。
  2. 生成阶段(抄答案):他有没有把书上的内容抄全?有没有自己瞎编?

基于此,业界总结出了 RAG 评测的 "黄金三大指标"


2. 黄金三大指标解析

指标一:命中率(Hit Rate / Context Precision)

  • 测什么:系统能不能把正确的资料(Chunk)捞出来?
  • 通俗解释:用户问"年假几天",系统捞出来的 5 个片段里,只要有 1 个片段包含了"年假"的具体规定,就算"命中"了。
  • 重要性:⭐⭐⭐⭐⭐。这是 RAG 的地基。如果命中率低,说明你的文本切分、向量库、重排算法做得很烂,后续的大模型再强大也救不回来。

指标二:引用正确性 / 忠实度(Faithfulness)

  • 测什么:大模型最后生成的回答,是不是 100% 来源于检索到的资料?
  • 通俗解释 :如果检索到的资料里写着"年假 5 天",大模型却回答"年假 5 天,病假 3 天"(病假是它用自带知识瞎编的),这就叫不忠实
  • 重要性:⭐⭐⭐⭐⭐。这是企业安全的底线!忠实度一旦下降,意味着幻觉飙升,用户会被错误信息误导。

指标三:覆盖率 / 答案相关性(Answer Relevance)

  • 测什么:回答有没有完全解决用户的问题?
  • 通俗解释 :用户问:"张三和李四的绩效分别是多少?"如果资料里都有,但大模型只回答了"张三的绩效是 A",漏掉了李四,这叫覆盖率不足 ;如果大模型不仅回答了绩效,还顺便背诵了一段公司的发展历史,这叫废话太多,相关性低
  • 重要性:⭐⭐⭐⭐。它衡量的是用户体验(UX)。

3. 如何做自动化评测与"回归测试"?

你不可能每天雇 10 个人去测这三个指标。工业界的做法是:用大模型来当裁判(LLM-as-a-Judge)

第一步:建立"金标集(Golden Dataset)"

你需要人工整理 50-100 个极其典型的问答对,作为考试的"标准答案"。

格式如下:

  • 问题:出差一天的餐补是多少?
  • 标准答案:一线城市 200 元,二线城市 150 元。
  • 出处依据:《2024财务报销制度》第 3 章。

第二步:自动化打分

每次修改了系统代码(比如换了模型、改了 Prompt),就用脚本跑一遍这 50 个问题。

  • 让"裁判大模型(通常用最聪明的 GPT-4 或 Claude 3.5 Opus)"对比系统生成的答案和"标准答案"。
  • 裁判会严格按照上面讲的三个指标,分别打出 0-1 的分数。

第三步:回归测试(Regression Testing)

如果昨天系统的命中率是 85%,今天你改了一行代码,命中率掉到了 70%,说明这次改动引发了退化(Regression) ,绝对不能上线!必须回滚代码。

这就把玄学变成了科学。


4. 本篇产出:RAG 评测表与通过门槛

为了让你的项目有章可循,这里提供一份标准的 RAG 评测指标基线。在内部测试时,请对照这张表:

评测维度 关注阶段 达标门槛 (满分 1.0) 优秀标准 如果不达标,该怎么优化?
命中率 (Hit Rate) 检索阶段 > 0.85 > 0.95 1. 增加多路召回(关键词+向量); 2. 优化 Chunk 的切分策略; 3. 增加重排(Reranker)模型。
引用正确性 (Faithfulness) 生成阶段 > 0.95 1.0 (零容忍) 1. 在 Prompt 里严厉警告"证据优先"; 2. 要求大模型强制输出引用来源; 3. 降低生成时的温度(Temperature=0)。
答案覆盖率 (Relevance) 生成阶段 > 0.80 > 0.90 1. 在 Prompt 里要求"分点作答"; 2. 增加检索召回的数量(Top-K),确保资料给够。

提示 :目前业界主流的自动化评测框架有 RAGASTruLens,如果你的团队有研发能力,可以直接接入这两个开源库,它们内置了上述所有的裁判逻辑。


5. 卷 4 结语与复盘

恭喜你!走完这 7 篇文章,你已经掌握了 卷 4:知识与数据 的全部核心。

回顾一下我们搭建的这套外脑系统:

  1. 决策:我们知道什么时候该用 RAG,什么时候该用微调。
  2. 清洗:我们把各种脏数据洗成了干净的纯文本。
  3. 切分:我们把长文本切碎,并打上了关键的元数据标签。
  4. 检索:我们用多路召回和重排模型,精准捞出参考资料。
  5. 生成与计算:我们用证据链压制幻觉,甚至用结构化 Schema 处理报表。
  6. 评测:我们用科学的指标为系统打分,告别了玄学。

下一步去哪儿?

现在,我们的 AI 已经是一个"精通公司业务知识的百事通"了。

但它依然很被动------它只能等你提问,然后给你答案。如果你想对它说:"帮我去查一下张三的报销单,如果没问题,自动去财务系统里帮他点通过",它就无能为力了。

怎么让 AI 从"只会回答问题的百科全书",变成"能自己规划、自己行动、甚至自己纠错的智能体"?

接下来的 卷 5:Agent 系统,我们将带你跨入 AI 编程最激动人心的领域:规划、执行与自动化!

相关推荐
神州数码云基地1 小时前
DSPy + Parlant:从手动调优到自动编译的效率加速器
人工智能·深度学习·机器学习
云烟成雨TD8 小时前
Spring AI Alibaba 1.x 系列【69】Token 用量统计
java·人工智能·spring
十三画者8 小时前
【AI学习笔记】:DeepSeek 大模型本地部署与调用实战指南
人工智能
丁常彦-自媒体-常言道8 小时前
从首发4nm智驾芯片到兜底城市领航安全,比亚迪开启AI新征程
人工智能
小杨在厦门9 小时前
从AI验布到智能质检:纺织企业智能化升级的三个台阶
人工智能·服装·服装厂·服装机械·铺布机
达之云*驭影9 小时前
解锁流量密码:详解抖音AI智能推荐封面功能
人工智能
火山引擎开发者社区10 小时前
ArkClaw 投研助理 —— 零门槛做投研,从一句话开始产出你的第一份深度研报
人工智能
码农小白AI10 小时前
AI报告审核加速融入自动化实验室:IACheck破解智能设备时代报告管理新挑战
运维·人工智能·自动化