Agent & RAG 测试工程笔记16：生成层怎么测？不只是“对不对”，还有“像不像人”

测试_AI_一辰2026-03-25 11:18

一、这一层最容易被低估

如果只看：

看答案对不对

其实远远不够。

因为生成层的本质是：

把内容"说出来"

要测的，不只是：

有没有说对

还包括：

有没有乱说
好不好读
稳不稳定

二、这一层可以梳理成三大类问题

1️⃣ 幻觉问题（最核心）

模型说了不该说的

常见情况：

chunk里没有答案，但模型补了一个
模型引用了"常识"，但资料里没有
内容看起来对，但其实是编的

怎么测？

构造"无答案场景"

例如：

教学资料里没有"发动机最大转速"

问：

👉发动机最大转速是多少？

预期：

👉 拒答或明确说资料没有

如果模型回答了具体数值：

👉 直接判幻觉

2️⃣ 表达问题

👉 内容对，但读起来不像人

常见表现：

一堆"然后 / 接着 / 此外"
句子很长
像论文或说明书

怎么测

👉 同一输入，多次生成

看：

表达是否稳定
是否出现模板化语言

一个实用的判断方式：

直接读一遍

如果你自己都不会这样讲：

就是有问题

3️⃣ 格式 / 可用性问题

用户能不能直接用

常见问题：

输出过长（用户只要一句话）
没分段
中英文混杂
没按要求结构输出

怎么测

强约束输出格式

例如：

复制代码

请用三句话讲清楚

看模型能不能遵守

三、容易忽略的一点：Prompt本身要测

很多人只测模型，不测 Prompt。

实际上：

Prompt就是生成层的"控制器"

测的是：

Prompt写法是否稳定
改一个规则，会不会影响输出
不同指令，风格是否一致

四、可落地的测试方法

Step 1：准备3类用例

正常用例（有答案）

验证能正确生成

无答案用例

验证不会胡说

表达用例

验证是否自然

Step 2：定义简单判断标准

不用打分，先用规则：

幻觉

出现资料外内容 → FAIL

表达

出现明显"然后/接着"堆叠 → 警告

格式

超出要求长度 → FAIL

Step 3：重复跑（关键）

👉 同一个问题跑3次

看：

是否稳定
是否有随机偏差

五、这一层最真实的坑

自己踩下来，有两个很典型：

坑1：内容是对的，但不好用

用户还要自己改

坑2：看起来很合理，但其实是编的

最危险

六、小结

生成层主要关注三块：

幻觉控制（有没有编内容）
表达质量（像不像人说话）
输出可用性（用户能不能直接用）

同时做三类用例：

有答案
无答案
表达验证

并通过多次运行观察稳定性。

上一篇：ctf之web代码执行攻防——如何悄无声息窥探你的内心

下一篇：报错The default superclass, “jakarta.servlet.http.HttpServlet“（已经配置好tomcat）

热门推荐

01GitHub 镜像站点 02DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 03【AI】2026 年具身智能模型和世界模型总结 04Codex 接入 DeepSeek API 完整配置文档 05【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08几个好用的ip纯净度检测网站 09CC-Switch 全平台下载、安装与使用全指南（Windows/macOS/Linux）10API Key 登录 Codex 也能用插件了，还支持会话删除和导出