一、预期收益
"通过引入AI辅助用例生成,我们将测试设计阶段的人均产出提升了近一倍,释放出的精力用于探索性测试和复杂场景覆盖,实现了'既快又稳'。"
核心成果:构建"需求→用例→执行→反哺"的AI赋能闭环
| 维度 | 关键指标 | 说明 |
|---|---|---|
| 生成效率 | 单需求用例生成时间 ↓75% | 15分钟 → 3分钟(含人工校验) |
| 需求覆盖率 | ↑30% | AI自动发现边界/异常场景,减少人工遗漏 |
| 需求缺陷前置发现 | 5个 | AI生成过程中反向暴露需求模糊点 |
| 用例采纳率 | 85% | 经2轮Prompt优化后,基础与异常场景几乎直接可用 |
价值量化(向管理层汇报用)
-
直接效能: 季度累计生成用例 1200+条 ,节省测试设计工时 约60人天
-
质量左移: 需求阶段发现 5处 逻辑漏洞,避免后期返工成本
-
知识沉淀: 形成 8个 高复用Prompt模板 + 1套"AI用例生成Slill"
二、主要工作
1. 搭建"AI+人工"双引擎生成模式
-
模式优化: 不再依赖AI一步到位,改为"需求结构化 -> AI批量生成 -> 人工标注清洗 -> 入库"的SOP流程。
-
效果: 解决了AI常见的"废话文学"和遗漏异常场景的问题,回归测试用例生成效率提升显著。
2. 核心业务场景实战
-
项目A(电商/金融等): 输入标准化需求文档,AI 30秒内输出覆盖等价类、边界值、异常流的初版用例,人工仅需补充特有业务规则(如"满减叠加逻辑")。
-
接口测试: 利用AI根据API文档生成参数校验用例(如:类型错误、长度超限、为空等),自动产出代码级测试脚本模板。
3. 反哺需求质量
- 在AI生成过程中,比如发现 3处 需求描述模糊(如"长时间未响应"未定义具体秒数),提前与产品沟通修正,避免了后期返工。
三、踩过的坑与解决方案(关键部分)
-
坑1:AI不懂"隐性需求"(如:列表需按时间倒序)。
- 解法: 建立业务知识库,在Prompt中强制加入"该项目默认规则:排序规则、分页规则"。
-
坑2:生成冗余度过高(如:为每个输入框生成20条无效等价类)。
- 解法: 优化Prompt指令,加入"请遵循正交试验法,合并冗余场景"。
-
坑3:上下文遗忘(对话长了之后,AI忘记被测系统是App还是Web)。
- 解法: 采用结构化Prompt模板(角色+任务+约束+示例),固化输入格式。
四、闭环实践详解
1. 输入侧:需求结构化 + 知识库注入
-
将PRD、接口文档、历史缺陷库作为上下文注入大模型
-
大模型自动识别:业务规则、字段约束、状态机、异常路径
-
价值: 让AI"懂业务",而非泛泛生成通用用例
2. 生成侧:分层生成 + 人工校准
4. 反馈侧:执行结果反哺Prompt/Skill优化
-
功能场景(P0):AI生成 → 人工确认核心链路
-
边界/异常场景(P1):AI批量生成 → 人工抽样校验
-
探索性场景(P2):AI建议 → 人工决策是否纳入
-
价值: 人机分工明确,AI做广度,人做深度
输出侧:多格式适配 + 可执行化
-
直接输出:Markdown表格 / XMind / TAPD导入格式
-
进阶:生成接口测试脚本片段(Postman/Python)
-
记录AI生成用例中被驳回/执行失败的场景
-
定期分析 → 优化Prompt/Skill指令集 → 迭代"用例生成模型"
-
价值: 每次执行都在训练"更懂本项目"的AI
-
价值: 从"用例文档"到"可执行资产"一步到位
五、方法论沉淀:大模型赋能测试的三级成熟度
| 级别 | 特征 | 当前阶段 |
|---|---|---|
| L1 工具化 | 人写Prompt,AI出草稿,人工改 | ✅ 已实现 |
| L2 流程化 | 固化SOP,需求→用例自动化流水线 | ✅ 已实现 |
| L3 智能化 | 执行失败自动触发用例补全,缺陷自动回灌生成回归用例 | 🔄 Q3推进中 |
六、下一步:从"辅助生成"到"自主进化"
-
缺陷驱动的用例再生
生产缺陷自动解析 → 大模型生成补充回归用例 → 自动合入用例库
-
用例-代码双向映射
AI生成用例的同时,标注对应代码模块,为精准回归提供依据
-
大模型评估大模型
引入评测模型,对生成的用例进行"覆盖率/冗余度"自动评分,持续优化生成质量