Agent & RAG 测试工程笔记 14：RAG门控层拆解：什么时候该答？什么时候必须拒绝？

一、背景：为什么RAG不能"有内容就回答"？

在做RAG系统测试时，觉得：

只要检索到了内容，就应该回答

实际情况是：

很多"看起来能答"的问题，其实不应该回答

例如：

检索到了相关词，但没有操作步骤
检索结果来自多个文档，存在污染
用户问对比/推荐问题，但没有明确依据

如果直接让模型生成：

很容易"合理胡说"

所以需要引入一层：

门控层（Gate / Decision Layer）

二、门控层在做什么？

判断当前检索结果，是否"足以支持回答"

也就是说：

检索层：尽量"找"
门控层：负责"筛"

本质不是生成，是：

证据判断 + 风险控制

三、门控层整体流程

可以抽象为：

检索结果（top_k chunks）

↓

是否有命中？

↓

证据是否充足？

↓

是否存在高风险问题？

↓

是否存在跨文档污染？

↓

最终决策：ANSWER / REFUSE

可以压缩为三类判断：

核心判断逻辑

1️⃣ 没有证据 → 不答

检索为空
或相关性极低

直接拒绝

2️⃣ 证据不足 → 不答

典型场景：

操作类问题（Howto）

例如：

问题：如何查看系统日志？

检索结果：

可以通过日志查看系统状态

问题：

没有步骤
没有操作细节

结论：证据不足 → 拒绝回答

3️⃣ 证据完整 → 才答

例如：

问题：如何设置 top_k 参数？

检索结果：

打开配置文件
修改 top_k=3
保存

有：

步骤
参数

结论：证据充分 → 可以回答

四、典型风险场景（测试重点）

1️⃣ 错误放行（不该答却答了）

常见情况：

操作类问题，但没有步骤
检索结果不完整
多文档混合

风险：模型开始"编步骤"

2️⃣ 过度拒绝（该答却拒绝了）

常见情况：

有内容，但规则过严
关键词没命中"证据词"

风险：用户体验差（明明能答却拒绝）

3️⃣ 多文档污染（Scope问题）

检索结果：

A文档 + B文档混在一起

风险：

模型拼接不同文档内容，产生错误回答

解决：SCOPE过滤（只保留主文档）

4️⃣ 对比 / 推荐类问题

例如：

课程A和课程B哪个更推荐？

风险：没有明确依据，模型容易主观判断

策略：拒绝回答

五、测试思路（这一层怎么测）

1️⃣ 验证"该拒绝的是否拒绝"

构造：

无命中问题
操作类无步骤问题
对比类问题

预期：REFUSE

2️⃣ 验证"该回答的是否能回答"

构造：

明确步骤
参数说明完整

预期：ANSWER

3️⃣ 验证"边界问题"

重点：

半有步骤（是否误判）
多文档混入（是否过滤）

六、一个关键认知（重要）

门控层决定的是"是否允许生成"，不是"生成什么"

如果这一层失效：

检索错 → 还能修
门控错 → 直接乱答

所以：

这是RAG系统"可控性"的核心

七、总结：

检索层的核心就是决定"回不回答"，本质是在做证据判断。

具体需要从三种情况去看：

第一种：没有证据 → 直接拒绝

如果检索层没有返回内容，或者相关性很低，

说明系统根本没有依据，这种情况必须拒绝。

第二种：证据不够 → 也不回答

比如用户问的是"如何操作"这种问题，

但检索结果里只有一些关键词描述，没有步骤、参数这种关键证据，

这种也会判定为证据不足，不能放给模型去生成，

不然模型很容易自己编。

第三种：证据完整 → 才允许回答

只有当检索结果能提供相对完整的信息，比如有步骤、有明确说明，

这时候才会进入生成阶段。

一句话：

门控层不是在做生成，而是在判断"当前信息是否有资格被用来回答"。