36｜RAG 评测与回归：命中率、覆盖率、引用正确性

到上一篇为止，你的 RAG（检索增强生成）系统已经跑通了。你随机问了几个问题，发现它答得还不错，于是准备满心欢喜地向老板汇报上线。

等一下！

在工程化领域，有一种错觉叫"我感觉它挺好用的"。

如果明天你换了一个更便宜的 Embedding 向量模型，或者调整了 Chunk 的切分大小，你怎么知道系统是变聪明了，还是变笨了？难道再人工去测 100 个问题吗？

企业级应用决不允许"凭感觉"上线。我们必须引入一套自动化的**评测（Evaluation）**机制。本篇作为卷 4（知识与数据）的收官之作，我们将教你如何用科学的指标给 RAG 系统打分。

我们在第 30 篇说过，RAG 本质上是一场"开卷考试"。

评价一个学生开卷考试考得好不好，不能只看他最后写的答案对不对，而是要分两步看：

基于此，业界总结出了 RAG 评测的 "黄金三大指标"。

测什么：回答有没有完全解决用户的问题？
通俗解释 ：用户问："张三和李四的绩效分别是多少？"如果资料里都有，但大模型只回答了"张三的绩效是 A"，漏掉了李四，这叫覆盖率不足 ；如果大模型不仅回答了绩效，还顺便背诵了一段公司的发展历史，这叫废话太多，相关性低。
重要性：⭐⭐⭐⭐。它衡量的是用户体验（UX）。

你不可能每天雇 10 个人去测这三个指标。工业界的做法是：用大模型来当裁判（LLM-as-a-Judge）。

你需要人工整理 50-100 个极其典型的问答对，作为考试的"标准答案"。

格式如下：

每次修改了系统代码（比如换了模型、改了 Prompt），就用脚本跑一遍这 50 个问题。

如果昨天系统的命中率是 85%，今天你改了一行代码，命中率掉到了 70%，说明这次改动引发了退化（Regression） ，绝对不能上线！必须回滚代码。

这就把玄学变成了科学。

为了让你的项目有章可循，这里提供一份标准的 RAG 评测指标基线。在内部测试时，请对照这张表：

评测维度	关注阶段	达标门槛 (满分 1.0)	优秀标准	如果不达标，该怎么优化？
命中率 (Hit Rate)	检索阶段	> 0.85	> 0.95	1. 增加多路召回（关键词+向量）； 2. 优化 Chunk 的切分策略； 3. 增加重排（Reranker）模型。
引用正确性 (Faithfulness)	生成阶段	> 0.95	1.0 (零容忍)	1. 在 Prompt 里严厉警告"证据优先"； 2. 要求大模型强制输出引用来源； 3. 降低生成时的温度（Temperature=0）。
答案覆盖率 (Relevance)	生成阶段	> 0.80	> 0.90	1. 在 Prompt 里要求"分点作答"； 2. 增加检索召回的数量（Top-K），确保资料给够。

提示：目前业界主流的自动化评测框架有 RAGAS 和 TruLens，如果你的团队有研发能力，可以直接接入这两个开源库，它们内置了上述所有的裁判逻辑。

恭喜你！走完这 7 篇文章，你已经掌握了 卷 4：知识与数据 的全部核心。

回顾一下我们搭建的这套外脑系统：

下一步去哪儿？

现在，我们的 AI 已经是一个"精通公司业务知识的百事通"了。

但它依然很被动------它只能等你提问，然后给你答案。如果你想对它说："帮我去查一下张三的报销单，如果没问题，自动去财务系统里帮他点通过"，它就无能为力了。

怎么让 AI 从"只会回答问题的百科全书"，变成"能自己规划、自己行动、甚至自己纠错的智能体"？

接下来的 卷 5：Agent 系统，我们将带你跨入 AI 编程最激动人心的领域：规划、执行与自动化！