Prompt改版后怎么回归：一套测试集和评分方法

在 AI 功能迭代过程中，Prompt 改版几乎是最常见的优化方式。

比如：

输出格式不稳定，改 Prompt
回答太泛，改 Prompt
总结漏重点，改 Prompt
RAG 问答会编造，改 Prompt
Agent 工具调用不够稳，改 Prompt
生成测试用例覆盖不全，还是改 Prompt

很多团队会发现一个现象：

Prompt 改起来很快，但改完之后到底变好还是变差，很难判断。

这也是 AI 测试里非常典型的问题。

传统功能改代码，测试通常可以通过明确的测试用例判断是否通过。

但 Prompt 改版不一样，它往往不是简单的"对 / 错"变化，而是质量在多个维度上波动。

例如：

原来格式不稳定，现在格式变好了，但内容变少了
原来回答比较完整，现在更简洁了，但漏了风险项
原来偶尔编造，现在拒答更谨慎了，但正常问题也不敢答了
原来生成测试用例覆盖多，现在更规范了，但边界场景少了

所以 Prompt 改版后，最不能只靠一句：

感觉这版效果好一点。

而是要建立一套可复用的回归方法。

这篇文章就专门讲清楚：

Prompt 改版后，怎么做回归测试，怎么判断它到底是变好了，还是变差了。

一、为什么 Prompt 改版必须做回归？

很多人会觉得，Prompt 只是几句话，改完试几个问题就行了。

但在真实项目中，Prompt 通常不是"文案"，而是 AI 功能的一部分业务逻辑。

它决定了：

AI 扮演什么角色
要完成什么任务
输出什么格式
遵守哪些边界
信息不足时怎么处理
能不能自由发挥
是否必须基于上下文回答

所以 Prompt 一旦改动，本质上就是改了 AI 功能的执行规则。

既然规则改了，就必须回归。

二、Prompt 改版最容易引入哪些问题？

Prompt 改版最麻烦的地方在于：

它经常是修好了一个问题，又引入另一个问题。

常见情况有下面几类。

1. 格式变稳了，但内容变弱了

例如原来要求生成测试用例时，输出比较丰富，但格式不稳定。

你改 Prompt 强调表格字段后，格式确实稳定了，但用例内容开始变得模板化，覆盖场景变少。

这类问题很常见。

2. 回答更谨慎了，但正常问题也不敢答了

比如为了减少 RAG 问答编造，你加了一句：

如果文档中没有明确依据，请不要回答。

结果无答案场景确实不编了，但一些有答案的问题也开始频繁拒答。

这就是"拒答过度"。

3. 角色更明确了，但输出变窄了

比如你把角色限定为"资深测试工程师"，输出确实更像测试视角了。

但如果用户需要产品视角、研发视角或管理层摘要，输出可能变得不够灵活。

4. 内容更完整了，但表达变啰嗦了

为了让 AI 覆盖更多维度，你加了大量要求。

结果输出变得很长，每次都写很多固定段落，用户反而不愿意看。

5. 加强边界后，多轮上下文变差了

Prompt 里增加了很多限制后，模型可能在多轮对话中更容易丢失前文，或者不敢基于前文继续补充。

6. 修复历史问题后，主流程退化

比如某个历史问题是"漏掉风险项"。

你为了修这个问题，让 Prompt 强调风险识别。

结果后续每次输出都强行生成风险，即使输入中没有明显风险，也会凑几条。

这就变成了新问题。

三、Prompt 回归测试到底在测什么？

Prompt 回归不是简单看"回答是否正确"，而是看改版前后质量变化。

它至少要回答 5 个问题：

历史问题是否修复？
核心能力是否保持？
新版本是否引入新问题？
高风险场景是否仍然可控？
整体质量是否比旧版本更适合上线？

也就是说，Prompt 回归的核心目标是：

确认新 Prompt 在修复问题的同时，没有造成关键能力退化。

四、Prompt 回归集应该怎么选？

Prompt 回归集不能只放几个标准问题。

建议至少分成 5 类。

1. 标准样例

用于验证主干能力是否正常。

例如：

标准需求生成测试用例
标准文档总结
标准知识库问答
标准会议纪要总结

这类样例要回答：

新 Prompt 是否还能完成基本任务？

2. 历史缺陷样例

这是 Prompt 回归里最重要的一类。

凡是旧版本出过问题的样例，都要放进来。

例如：

曾经格式不稳定
曾经漏掉关键规则
曾经编造答案
曾经引用错误
曾经误识别负责人
曾经没有触发高风险确认

这类样例要回答：

这次改版要修的问题，真的修了吗？

3. 边界样例

用于验证新 Prompt 在复杂输入下是否稳定。

例如：

模糊输入
信息不足
超长文本
多轮追问
中英混输
指令冲突
噪声内容

这类样例要回答：

新 Prompt 在非标准输入下有没有变差？

4. 高风险样例

用于验证边界和安全能力。

例如：

无答案问题
权限隔离问题
敏感信息问题
高风险执行动作
正式通知发送
删除 / 修改类任务

这类样例要回答：

新 Prompt 是否仍然守住安全边界？

5. 对照样例

这类样例用于判断新旧 Prompt 的质量差异。

例如同一个输入，同时用旧 Prompt 和新 Prompt 跑一次，然后比较：

哪个更准确
哪个更完整
哪个更稳定
哪个更适合业务使用

这类样例要回答：

新版本是否真的比旧版本更好？

五、Prompt 回归集字段怎么设计？

建议用表格管理，不用一开始就做复杂平台。

最小字段可以这样设计：

字段	说明
样例编号	唯一 ID
样例标题	这条样例测什么
样例类型	标准 / 缺陷 / 边界 / 高风险 / 对照
输入内容	用户问题或任务输入
前置上下文	多轮场景时使用
旧版本问题	旧 Prompt 具体问题
新版本预期	新 Prompt 应该改善什么
评分维度	准确性、完整性、格式、无幻觉等
风险等级	P0 / P1 / P2
是否必须回归	是 / 否

这个结构的好处是：

能看清为什么要回归
能对比新旧版本
能沉淀历史问题
能支撑测试报告输出

六、Prompt 改版前后怎么对比？

最简单的方式是做一张对比表。

示例

样例编号	样例类型	旧 Prompt 表现	新 Prompt 表现	结论
TC-P-001	标准	能完成，但格式不稳定	格式稳定，内容完整	改善
TC-P-002	缺陷	曾漏掉边界规则	已补充边界规则	修复
TC-P-003	边界	信息不足时会编造	能提示信息不足	改善
TC-P-004	高风险	无答案时仍回答	正确拒答	修复
TC-P-005	标准	回答完整	回答过度简化	退化

这张表非常重要。

因为 Prompt 改版最怕的是：

单看几个好结果，觉得变好了；但一回归才发现某些主干能力退化了。

七、Prompt 回归评分怎么设计？

可以设计一个通用 100 分评分表。

通用评分表

评分项	分值	说明
任务理解准确性	20	是否正确理解输入任务
内容完整性	20	是否覆盖关键点
输出格式合规性	15	是否按要求输出
边界控制能力	15	信息不足、无答案、权限等是否处理正确
无幻觉	15	是否没有编造
稳定性	10	多次输出是否基本一致
可用性	5	是否适合实际业务使用

总分 100 分。

判断标准

90 分以上：质量较好，可作为上线候选
75～89 分：基本可用，但仍需人工复核
60～74 分：存在明显风险，需继续优化
60 分以下：不建议上线

八、不同类型 Prompt，评分重点要不同

通用评分表可以用，但不同 Prompt 也要有侧重点。

1. 生成测试用例类 Prompt

重点看：

场景覆盖
边界和异常
步骤可执行
是否编造需求外规则

2. 文档总结类 Prompt

重点看：

重点提炼
关键信息完整性
是否区分已确定和待确认
是否适合目标读者

3. RAG 问答类 Prompt

重点看：

是否基于文档
无答案是否拒答
引用是否准确
是否混入模型常识

4. Agent 类 Prompt

重点看：

是否正确理解任务
是否选对工具
是否需要确认
是否避免误执行
是否如实反馈执行结果

所以评分表可以统一，但权重最好按场景微调。

九、Prompt 回归最容易忽略的 4 个点

1. 不能只看平均分

平均分提升，不代表没有高风险问题。

例如：

标准样例都提升了
但无答案场景开始编造

这种情况不能上线。

所以必须单独看：

P0 样例
高风险样例
历史缺陷样例

2. 不能只看一次输出

AI 输出有波动，同一个样例最好至少跑 2～3 次。

尤其是：

格式稳定性
多轮稳定性
拒答稳定性
Agent 规划稳定性

不能只凭一次结果判断。

3. 不能只看修复项

Prompt 改版经常是"修 A 坏 B"。

所以必须同时回归：

本次修复问题
原有主干能力
高风险边界

4. 不能只靠人工印象

Prompt 评估很容易主观化。

所以至少要有：

固定样例
固定维度
固定评分表
新旧结果对比

否则团队很容易陷入"我觉得更好"的争论。

十、Prompt 改版测试结论怎么写？

不要只写：

新 Prompt 效果更好。

这个结论太空。

更好的写法应该包含：

本次改版目标
回归样例范围
修复情况
退化情况
高风险样例表现
是否建议上线

示例结论

本轮测试针对 Prompt v2.0 改版进行回归，覆盖标准样例、历史缺陷样例、边界样例及高风险样例共 40 条。

本次改版主要目标是提升输出格式稳定性，并减少无答案场景下的编造问题。

测试结果显示：

输出格式合规率由 82% 提升至 96%，格式稳定性明显改善；
历史缺陷样例中 8 条已修复 7 条，修复率较高；
无答案场景下拒答能力有所提升，但仍有 1 条边界样例存在不够谨慎的问题；
标准样例中有 2 条出现内容压缩过度，导致关键信息遗漏；
高风险样例未发现权限或安全边界失守问题。

综合评估，新 Prompt 在格式稳定性和边界控制方面优于旧版本，但需继续优化内容完整性。建议在补充修复 2 条内容遗漏问题后进入灰度验证。

这样的结论，比"效果更好"更有决策价值。

十一、一个最小可落地的 Prompt 回归流程

如果团队刚开始，可以按下面 5 步做。

第一步：明确本次 Prompt 改版目标

例如：

修复格式不稳定
减少编造
提升总结完整性
增强高风险确认

第二步：选 20～40 条回归样例

至少包括：

标准样例
历史缺陷样例
边界样例
高风险样例

第三步：新旧 Prompt 同输入对比

记录：

旧结果
新结果
差异点
是否改善 / 退化

第四步：按评分表打分

不要只凭感觉，至少按 5～7 个维度评分。

第五步：输出改版结论

明确：

是否修复目标问题
是否引入退化
是否建议上线
是否需要灰度或人工复核

这就是一个最小可执行闭环。

十二、小结

Prompt 改版后怎么回归？

可以浓缩成一句话：

不是改完试几个问题，而是用固定测试集和评分标准，对比新旧 Prompt 在主干能力、历史缺陷、边界场景和高风险场景上的表现。

所以 Prompt 回归至少要做到：

有固定回归集
有历史缺陷样例
有高风险样例
有新旧版本对比
有结构化评分
有明确上线建议

只有这样，Prompt 才不是靠感觉调，而是进入可测试、可回归、可持续优化的工程化状态。

写在最后

Prompt 改版是 AI 功能优化里最常见、也最容易被低估的一件事。

因为它看起来只是改了几句话，但实际上可能影响：

输出格式
内容完整性
拒答策略
角色边界
多轮稳定性
工具调用行为

所以只要 Prompt 进入产品流程，就应该像代码一样被管理、被回归、被验证。

测试工程师在这里最重要的价值，就是把 Prompt 从"靠感觉调"拉回到：

用样例说话，用评分判断，用回归守住质量。