把AI塞进测试环节,我踩出了一条能用的路

本文首发于公众号「技术落地手记」,一个国企技术管理者的实战笔记。关注回复「落地」获取更多技术管理实践。

上次写过一篇 用了12年CD系统,我在2026年用AI把它替换掉了,讲我们把CD系统换成自研系统的事。

那篇发出来之后,有几位同行后台聊过,说他们也在折腾类似的事。今天这篇算上一篇的续集,讲新系统跑了一段时间之后,又冒出来的新问题。

先说结论:研发环节用上AI之后,效率确实涨了一截,但测试这个环节没动,于是它从原来的"看起来还行"变成了现在的"明显拖后腿"。


研发提速之后,测试就堵在那里

需求分析、产品文档、架构方案、代码,这几个环节我们都接了AI辅助。不是百分之百靠它,是开发同事先用AI跑一版,自己再过一遍。

这种节奏下,一个中等需求原来要走三天的,现在一天多就能进入提测。

听起来是好事。但提测之后画风就变了。

测试同事原来一周接3个需求,节奏刚刚好。现在一周来5个,写测试用例、执行用例、提Bug、回归,全是手工的。AI在前面跑得越快,测试这边堆得越多。

有一周连续加班,测试同事跟我说:你们前面拿AI跑,后面让我用手干,这账你算过吗。

我当时没接上话。账确实没算过。


为什么以前没动测试

老实说,AI能不能用在测试,我心里一直有数,但一直没动手。

一是测试这个环节比代码生成复杂。代码错了好回滚,测试错了你还不一定发现,悄悄漏过去就上了线,风险更难控。

二是没现成的路子可抄。研发用AI业内案例已经一大把,测试这块大家都在试,没几家把整条链路跑通。

三是我们之前在CD系统上,CD系统是封闭系统,想接也接不进去。

但这三个理由,到现在已经站不住了。

模型这一年的进步比预想的快,做点用例生成、UI自动化这种事,能力是够的。研发系统自研之后,整条链子在自己手里,想接哪里接哪里,没人挡着。最重要的是,测试这个瓶颈是真痛,再不解决就要给项目排队。


这条AI测试链路是怎么走的

整体思路是把"AI生成测试用例 + AI执行测试 + Bug自动入库"这条链子,嵌到自研系统里。流程大致是这样:

需求录入之后走需求评审,评审通过后产品文档落地、UI图出来。这两份东西通过MCP读到本地Agent,Agent再去读这个项目的代码,三份信息合在一起,生成测试用例。这一步用一个专门为这个项目调好的skill来跑。

测试用例生成完之后,本地Agent开始自动化测试,优先跑冒烟,先把主流程兜一遍。这步也是一个项目专属的测试skill,因为不同项目的环境、依赖、登录态都不一样,得做项目级的适配,通用skill不顶用。

测试跑完之后,结果通过MCP回写到自研系统,形成"用例-Bug对照表"。Bug自动入库,分配给开发。开发改完提验证,验证不过就回到改Bug那一步,验证通过就走完一个完整闭环。

整个过程里,测试同事的角色变了。原来是一线执行者,现在是审核者:审AI生成的用例靠不靠谱,审AI跑出来的Bug是真的还是假阳性。

AI测试流程图

几个关键的取舍

为什么是项目专属skill,不是通用工具?

我们试过通用的测试用例生成工具,效果一般,用例都是大路货,缺对项目业务的理解。每个项目自己的skill,可以把这个项目的业务规则、边界条件、历史踩过的坑都喂进去,生成出来的用例才有针对性。

为什么是本地Agent,不是云端服务?

代码不出本地是底线。云端方案虽然方便,但代码、UI图、产品文档都得传出去,过不了内部安全这一关。本地Agent慢一点,但合规上没问题,长期看也省钱。

为什么先做冒烟,不是全量?

全量UI自动化是个无底洞,界面变一下用例就要维护一轮,投入产出不划算。冒烟覆盖主流程,每次发版必跑,把"明显坏了"先挡住,剩下的复杂场景人来兜。这个分工更现实。


能解决什么,不能解决什么

能解决的:

测试用例从"凭经验从零写"变成"有产物垫底再调整",写用例的时间能省一大半。

冒烟测试不再占人,每次发版自动跑,测试同事腾出手做更深的探索测试。

Bug从"测出来再手工录"变成"跑完自动入库",少一道转抄的工。

不能解决的:

复杂业务逻辑、奇怪的边界用例,AI还是看不到,得靠测试同事的经验。

线上环境特有的问题,Agent本地再怎么跑也跑不出来。

跨系统的集成测试,AI能帮忙搭场景,但判断结果对不对,还是人来看。

我希望大家对这件事的预期不要拉太高。AI不是来替代测试的,是把测试的活分一层出来:低层重复性的让AI干,高层判断性的留给人。


写在最后

现在还在搭的阶段,第一个版本这个月底能跑起来。等真跑一段时间之后,再写一篇复盘。

跟上次自研CD系统替代品的逻辑一样:以前算不过来的账,现在算过来了。AI辅助编程改变的不是代码质量,是自研的决策门槛;这次AI辅助测试改变的也不是测试质量,是"要不要把测试自动化做起来"这个老问题的答案。以前做这件事得专门组个自动化测试组,现在一个本地Agent加一套skill就能起步。

如果你的团队也卡在测试这个环节,先想清楚一件事:你们的瓶颈是用例不够,还是执行不过来,还是回归太重。这三个问题对应的解法不一样,别一上来就上工具,先搞清楚自己卡的是哪一段。


以上是我们正在踩的路,不一定走得通,仅供参考。

如果你也在折腾类似的事,欢迎后台聊聊。

相关推荐
闵孚龙1 小时前
Claude Code 工具提示词全拆解:AI Agent、Prompt Engineering、工具调用、上下文工程、自动化编程的底层逻辑
人工智能·自动化·prompt
白鲸开源1 小时前
杀疯了!SeaTunnel AI CLI 解锁数据集成新玩法
大数据·人工智能·github
王_teacher1 小时前
GRU (Gated Recurrent Unit,门控循环单元) 原理详解 并且手写GRU模型
人工智能·gru·llm·nlp
AI医影跨模态组学1 小时前
Cancer Letters(IF=10.1)中山大学附属第六医院等团队:基于治疗前MRI影像的RCMIX模型预测MRI定义的cT4期直肠癌T分期下降
人工智能·机器学习·论文·医学·医学影像·影像组学
xixixi777771 小时前
AI的“账号”与“钱包”:AWS与Circle同日出手,AI正从工具进化
人工智能·安全·ai·大模型·云计算·aws
目黑live +wacyltd1 小时前
算法备案:常见驳回原因与应对策略
人工智能·算法
新知图书1 小时前
销售资料包智能生成(使用千问)
人工智能·ai助手·千问·高效办公
Cosolar2 小时前
大模型应用开发面试 • 第4期|A2A、复杂挑战与具身智能
人工智能·后端·面试
2501_945837432 小时前
OpenClaw:重塑人机协作的开源 AI 智能体
人工智能