
五一节前,我面试了一位自称有六年软件测试工作经验的候选人。
聊到当下行业里大火的 AI 自动生成测试用例话题时,我抛出了一个核心问题:"现在很多公司都用 AI 批量生成功能测试用例,需求文档完整的情况下,AI 能产出大量正向、反向、边界用例,看起来覆盖得面面俱到。那你怎么判断这些用例是否真的可靠?能不能直接拿来执行、支撑上线?完整的验收思路又是什么?"
他几乎没加思考,脱口而出:"逐条看一遍,没问题就可以用。"
我顺着他的话,继续追问:"这个思路没问题,但'没问题'的标准是什么?你具体是怎么判断的?
AI 会不会遗漏关键的异常场景?会不会出现逻辑自相矛盾的情况?会不会凭空编造出根本不存在的业务规则?那些权限校验、并发场景、极端边界值,AI 有没有全部覆盖到?"
我特意补充到,AI最容易出现的问题: 就是生成的用例看起来专业规范,实际上全是无效或者错误的内容。
针对这种情况,你有没有一套标准化的校验方法?
他瞬间愣住了,迟疑了半天只说 "目前只能靠人工一条一条排查核对"。
其实到这里,这场面试的结果基本已经确定了。
这道题看似是问 "怎么审核测试用例",实则是在区分普通测试和高级测试的核心分水岭。
很多人疑惑,为什么这道题能筛掉大部分人?
其实答案很简单,这道题考察的根本不是会不会写测试用例,而是AI时代下测试工程师对用例质量审核、风险识别的核心能力。
如果这道题你没把握答好,可以加入「AI 进化社」学习,里面涵盖了完整的能拿捏面试官的AI 测试必考题库和AI 测试项目实战技能,覆盖软件测试开发全流程AI 赋能。
很多测试从业者都有一个误区: 觉得AI生成用例数量多、排版规范、生成速度快,就代表用例好用。
但大家忽略了一点,AI 高效生成 和AI 高质量可靠 完全是两个不同的技术维度,不能混为一谈。
在我看来,一个能适应AI时代的高级测试工程师,必须具备以下三层核心认知,缺一不可。
第一层,必须对 AI 用例做链路级的深度拆解与核查
AI生成用例时很容易出现各类问题,比如逻辑漏洞、业务常识错误、用例重复冗余,看似覆盖全面,实则虚假覆盖,还有最关键的漏测高危场景。
AI的优势在于生成正向、常规用例,但在权限校验、异常参数输入、边界极值测试、业务互斥规则、流程依赖场景、非法输入校验、安全风险测试这类逆向或高复杂度场景中,很容易掉链子。
所以我们绝对不能直接盲目信任AI的输出,要先拆解AI生成用例的类型,比如正向、反向、边界、异常、权限、流程、安全这七类,逐一核对每一条用例,确认其符合真实的业务逻辑,没有偏离需求。
第二层,用量化分析AI 用例,拒绝凭感觉审核
"看起来没问题"是最不靠谱的审核标准。
审核AI用例绝对不能只看数量多少,而是要建立可落地的量化统计标准,可重点关注这几个核心指标:
- 需求覆盖率
- 需求点匹配度
- 反向用例占比
- 边界用例数量
- 重复用例率
- 错误用例率
- 高危场景的覆盖
| 指标 | 说明 | 合格线(我的经验值) |
|---|---|---|
| 需求覆盖率 | 需求文档中的功能点被用例覆盖的比例 | ≥95% |
| 需求点匹配度 | 用例描述与需求原意的吻合程度 | ≥90% |
| 反向用例占比 | 反向/异常用例占总用例的比例 | ≥30% |
| 边界用例数量 | 明确的边界值测试场景数 | 每功能点≥2个 |
| 重复用例率 | 语义重复的用例占比 | ≤10% |
| 错误用例率 | 业务逻辑错误或无法执行的用例占比 | ≤5% |
| 高危场景覆盖率 | 支付/订单/权限等核心场景的覆盖度 | 100% |
同时,要对照需求文档 、产品原型 和历史缺陷库,检查AI有没有遗漏高频出现的缺陷场景。结合过往的线上bug验证AI生成的用例能否覆盖这些历史问题。如果覆盖不了,是AI漏了还是这个场景太特殊需要人工补充?
除此之外,还要对AI用例进行分级筛选,我的建议是可以将AI 用例分成三类:
- 可用:直接入库
- 待修改:逻辑方向对,但描述或数据需要调整
- 错误/无效:业务逻辑错误、与需求不符、无法执行
明确区分可用用例、待修改用例、和错误无效用例做到精准筛选,而不是全盘接收,盲目使用。
这个分级不能模糊。我曾经见过有的团队在实践过程中,把"待修改"的用例直接丢给执行人员,结果执行人员看不懂,来回沟通浪费了两天时间。
第三层,建立AI用例的质量准入标准,形成闭环优化
想要真正用好AI生成的用例,不能只靠人工一条一条看。效率太低,人也扛不住。
我的建议,可分三步:
第一步,建规则,用工具批量初筛。
首先要梳理一套标准化的校验规则,把重复率检测、格式规范性检查、基础逻辑合理性(比如前置条件是否完整、预期结果是否可判定)做成自动化脚本/工具。
借助自动化工具批量审核AI用例的重复率、格式规范性和逻辑合理性,节省人工审核成本。
这一步,初筛,跑一遍基本能过滤掉60%的明显问题用例,人工只需要聚焦剩下的40%。
第二步,人工审核聚焦高危模块。
支付、订单、权限、资金------这些场景一旦出错就是生产事故,必须逐条人工复核。其他模块可以适当抽查,但核心模块一个都不能漏。
第三步,把历史缺陷反哺给AI,形成闭环。
把历史缺陷和核心业务规则整理好,作为AI生成用例的优化提示词,逐步提升AI生成用例的质量。
形成AI 辅助闭环流程:AI生成初稿 → 工具初筛 → 人工审核修正 → 落地执行。
坚决杜绝直接无脑上线AI原生用例,建立明确的AI用例质量准入标准,守住测试质量底线。
说回那道面试题
说到这里,大家应该明白这道面试题的核心考察点了,它考察的是你能否从会手写测试用力的基础层面升级到能读懂AI用例质量风险,具备AI测试审核把控能力的高级层面。
普通测试工程师看到AI生成的用例完整数量充足,就觉得万事大吉。
而高级测试工程师清楚,AI生成的便捷性只是基础,能否保障测试质量可靠,不漏测,不出现无效用例,关键在于你对AI用例风险链路的深度理解,以及对测试质量的量化审核和精准分析。
如果你也想系统掌握 AI 时代下测试工程师的核心竞争力,我真心推荐你了解一下「AI 进化社」------ 这里后续会持续更新完整的 AI 测试必考题库,覆盖从面试高频问题到落地实操的全维度内容,更有针对 AI 用例审核、风险把控的进阶技能教程。无论是想应对面试、提升职场竞争力,还是解决实际工作中 AI 测试的痛点,都能在这里找到可落地的方法。与其在 AI 浪潮里盲目摸索、踩坑试错,不如系统学习,快速完成从普通测试到 AI 时代高级测试专家的跃迁。
感兴趣的同学可以了解一下,「AI进化社」目前开放报名,具体信息可以私信我。
最后想问大家。你们平时工作中有没有用过AI生成测试用例,有没有踩过AI瞎编业务规则,漏测核心场景的坑?欢迎在评论区一起交流探讨。