Agent & RAG 测试工程笔记16:生成层怎么测?不只是“对不对”,还有“像不像人”

一、这一层最容易被低估

如果只看:

看答案对不对

其实远远不够。


因为生成层的本质是:

把内容"说出来"


要测的,不只是:

  • 有没有说对

还包括:

  • 有没有乱说

  • 好不好读

  • 稳不稳定


二、这一层可以梳理成三大类问题

1️⃣ 幻觉问题(最核心)

模型说了不该说的


常见情况:
  • chunk里没有答案,但模型补了一个

  • 模型引用了"常识",但资料里没有

  • 内容看起来对,但其实是编的


怎么测?

构造"无答案场景"

例如:

教学资料里没有"发动机最大转速"

问:

👉发动机最大转速是多少?


预期:

👉 拒答 或 明确说资料没有


如果模型回答了具体数值:

👉 直接判幻觉



2️⃣ 表达问题

👉 内容对,但读起来不像人


常见表现:
  • 一堆"然后 / 接着 / 此外"

  • 句子很长

  • 像论文或说明书


怎么测

👉 同一输入,多次生成

看:

  • 表达是否稳定

  • 是否出现模板化语言


一个实用的判断方式:

直接读一遍

如果你自己都不会这样讲:

就是有问题


3️⃣ 格式 / 可用性问题

用户能不能直接用

常见问题:
  • 输出过长(用户只要一句话)

  • 没分段

  • 中英文混杂

  • 没按要求结构输出


怎么测

强约束输出格式

例如:

复制代码
请用三句话讲清楚

看模型能不能遵守


三、容易忽略的一点:Prompt本身要测

很多人只测模型,不测 Prompt。

实际上:

Prompt就是生成层的"控制器"


测的是:

  • Prompt写法是否稳定

  • 改一个规则,会不会影响输出

  • 不同指令,风格是否一致


四、可落地的测试方法

Step 1:准备3类用例

正常用例(有答案)

验证能正确生成


无答案用例

验证不会胡说


表达用例

验证是否自然



Step 2:定义简单判断标准

不用打分,先用规则:


幻觉
  • 出现资料外内容 → FAIL

表达
  • 出现明显"然后/接着"堆叠 → 警告

格式
  • 超出要求长度 → FAIL


Step 3:重复跑(关键)

👉 同一个问题跑3次

看:

  • 是否稳定

  • 是否有随机偏差



五、这一层最真实的坑

自己踩下来,有两个很典型:


坑1:内容是对的,但不好用

用户还要自己改


坑2:看起来很合理,但其实是编的

最危险

六、小结

生成层主要关注三块:

  • 幻觉控制(有没有编内容)

  • 表达质量(像不像人说话)

  • 输出可用性(用户能不能直接用)


同时做三类用例:

  • 有答案

  • 无答案

  • 表达验证


并通过多次运行观察稳定性。

相关推荐
AI袋鼠帝4 小时前
4万Star开源神作曝光顶级AI们的System Prompt!太有意思了~4万Star开源神作曝光顶级AI们的System Prompt!太有意思了~
人工智能
❀͜͡傀儡师5 小时前
AI 中转站(Sub2API)搭建
人工智能·sub2api·ai 中转站
甲维斯5 小时前
Claude“山寨版”来了,支持中文,可配“任意模型”
人工智能·ai编程
测试员周周5 小时前
【AI测试智能体】为什么传统测试方法对智能体失效?
开发语言·人工智能·python·功能测试·测试工具·单元测试·测试用例
kyriewen5 小时前
百度用6%成本碾压硅谷?中国AI把性价比玩明白了
前端·百度·ai编程
jump_jump6 小时前
把一份前端 checklist 变成 AI 的 Skill:让 CR 不再靠记忆
性能优化·ai编程·代码规范
RSTJ_16256 小时前
PYTHON+AI LLM DAY THREETY-NINE
开发语言·人工智能·python
怕浪猫6 小时前
荒岛原始无工业、无电力、无设备,从零搭建最基础计算机体系
人工智能·设计模式·面试
2601_949499946 小时前
金价涨、光模块跌?不,它们之间存在更复杂的四重关联
人工智能·区块链
tanis_20776 小时前
Deepseek V4 Pro 新手极速上手指南
人工智能·语言模型