【AI测试路线图2】功能测试转 AI 测试:4~5 个月,一条最稳的路

导读 :这篇不是 《零基础 5~8 个月》的精简版,而是专门给「会测但不确定要补多少」的人看的裁剪版。你有用例、缺陷、业务沟通------不用推倒重来。真正要补的通常只有两块:脚本能不能落地 (约 3~4 周),以及 脑子能不能接受没有唯一标准答案(换脑约 1 周)。线 A、线 B 各块细节需要时再翻零基础篇对应节;本篇只写:跳过什么、硬磕什么、做到什么算过关、怎么排四个月。

作者:测试员周周 | 14 年测试老兵

阅读时间:约 10 分钟

搭配阅读:《零基础转AI测试,5到8个月照着走》------需要某一块「学到哪就够」时再去翻

先选对篇、选对线(选择树)

复制代码
你是谁?
├─ 零基础 / 没写过代码 → 读《零基础转AI测试,5~8个月照着走》
└─ 会功能测试 / 会用例 → 读《本篇》
    ├─ 业务里 AI 占比小 → 主走线 A(赋能:AI 帮你测业务)
    └─ 岗位明确是 AI / Agent 产品 → 主走线 B(测智能行为)

定好「读哪篇、主走哪条线」再往下翻;两条线不要混成一门课。


我带过的功能测试同事里,转得最快的往往不是学得最拼的,而是最先想清楚走线 A 还是线 B、并且没把零基础路线图从头抄一遍的那个。

很多人学了一阵觉得「跟上一篇没区别」,问题往往在这里:你已经会写用例了,却还去啃两三周的测试入门;你已经会在 Excel 里点回归了,却还在系统学 Python,三个月还没跑通第一批 pytest。

你不是「不会测试」 ------你只是第一次遇到没有唯一正确答案的被测对象。这句话能帮你减掉一半无谓焦虑。


你和零基础,差在哪(先对这张表)

维度 零基础要先... 你已经... 所以你应该...
测试思维 学 2~4 周「测试在测什么」 会写用例、会追缺陷 跳过系统测试入门,最多复习 2~3 天
编程 6~8 周 pytest,往往最磨人 可能只会 Postman / 偶尔抄脚本 用 3~4 周把「会测」升级成「能脚本化」,再进主线(见下节底座)
业务 没有 懂场景和风险 做黄金集、写规范时直接当优势用
预期结果 习惯「一个标准答案」 同上 先花一周换脑,否则测大模型会很难受
总周期(两条线各一个小成果) 5~8 个月 --- 冲刺 4~5 个月 / 稳妥 4~6 个月(在职每天 1.5~2 小时)

周末才学、或每天不足 1.5 小时,在「稳妥版」上乘 1.3~1.5。刚毕业全力学、每天 2~3 小时,还能再快半档。

线 A 和线 B 不是「简单 vs 难」 ,而是 测普通软件 vs 测智能行为(被测对象、确定性、风险点都不同)。先定主线,再裁剪,不要两条线混成一门课。


功能测试专用验收标准(做到什么算过关)

下面把抽象词换成你能对照检查的动作。过不了某一格,就还在那一格,别急着进 Agent / 红队。

原来你会 现在要做到(可验证)
写 Excel 用例 同一批用例能变成 pytest ,本地 一键跑完
口头说业务规则 能写成 SKILL.md(或等价规范),改规范能改出生成/脚本方向
手工点回归 不打开界面也能跑完核心接口/UI 冒烟(Playwright 或接口二选一)
报 Bug 能说清 AI 相关失败类型 (如检索错、幻觉、工具调错)和风险档
做验收 / 签字 能根据 指标 + 人工复核拦 / 放行(哪怕只对比两个 Prompt 版本)

规范驱动做到哪 :有一份你自己写的规范 + 对应 pytest/Playwright 能跑;别人改需求时,你能说清改规范还是改脚本。

黄金集版本化 :把你最熟的 20 个用例 改写成三列------输入通过规则人工复核结论 ------这就是第一个黄金集;用 git 或文件名标 v1/v2,能 批跑对比两次发布

Agent「能画图」 :能画出「需求 → Prompt/规范 → 执行 → 报告」四步,不要求自己写调度内核。

如果你现在还在抄 Postman 导出脚本、却跑不通 pytest ,说明还没出底座阶段,别进线 A 后面的 RAG / Agent。


10 分钟选主线(别两条线混成一门课)

团队仍是传统业务为主 (电商、后台、App),AI 多半用来写用例、生成脚本 → 主学线 A(赋能)。线 B 补到:能列几种 AI 失效模式、能参与黄金集评审即可,大约一两成时间。

岗位明确是大模型应用、智能客服、Agent主学线 B。线 A 至少要:pytest 能独立写 + 一条接口或 UI 冒烟能跑,否则评测只能停留在 Excel 点检。

JD 两条都写 → 两个方向各做一个能打开演示的小成果;面试先说你们产品里 AI 占多大,再展开。比简历堆十个框架名管用。


共同底座:3~4 周,不是「两三周搞定一切」

口径统一:换脑约 1 周 + 脚本化 2~3 周 + API 3~4 天(可与脚本化并行)≈ 3~4 周。不是「两周补完、第三周就上 Agent」。

换脑:传统测法和 AI 测法差在哪(约 1 周,必做)

自己画一页对照:左列你熟悉的测法,右列写------用 AI 辅助时变在哪、测 AI 产品时又变在哪。

最小练习(换脑周必做一次) :找一个你熟的老用例,强行写出三种不同但都算「通过」的结果 ,并写下哪一种算好、为什么------这就是以后评大模型时「规则 + 人工」的预演。

很多人转型半年仍用「必须唯一预期结果」去卡大模型,问题就出在这一步。

学到哪就够:能举例说明预期结果什么时候从「一个答案」变成「规则 + 区间 + 人工评分标准」。

脚本化:把你会测的东西变成能重复跑的(2~3 周,最容易拖)

把一组真实手工回归改成 pytest:请求接口、断言、结果落盘。

学到哪就够 :同事离职后,你仍能在本地一键跑完这批用例。

功能测试常见坑

  • 「我会 Postman」≠ 自动化
  • 追求框架完美,三个月还没跑通第一批
  • 只抄代码,不知道断言在守什么业务规则

大模型 API(3~4 天,可与脚本化并行)

调通 API、懂 Token 和上下文、知道输出为何不稳定。走线 A 往往到这里就够;走线 B 后面在 Prompt 和评测上加深。

底座阶段可以明确跳过:系统 Python 课、完整测试入门书、从零学「测试是干什么的」。


线 A:AI 赋能测试(功能测试往往上手最快)

线 A 的 Agent / MCP 不是让你去做 AI 产品 ,而是让你知道:测试流程可以被编排 。时间紧时 只要求能画图 ;MCP 建议跳过,浏览器用 Playwright 直连

核心线顺序(不要打乱,RAG 不能后置)

复制代码
pytest → Prompt → RAG(查规范/用例/缺陷)→ 规范驱动 → 接口 or Playwright → CI

RAG 是 Prompt 和规范的记忆外挂,不是「高级选修、以后再加」。

模块 你要做到(可验证) 工具举例
pytest 手工回归→一键批跑 pytest、httpx
Prompt 需求→可生成步骤/脚本 Promptfoo(可选)
RAG 规范/用例能检索到再生成 Chroma、Qdrant
规范驱动 SKILL.md + 脚本能跑 SKILL.md
Playwright 接口 一条主路径稳定 Playwright / httpx
CI 提交能跑 pytest GitHub Actions
Agent编排(可选) 四步流水线能画图 LangGraph
MCP(可选) 时间紧跳过 ---

功能测试 → 线 A 推荐节奏(约 4 个月,单线,不要双线并行表)

阶段 目标 验收
第 1 月 pytest + 接口 手工回归能脚本化,一键跑完
第 2 月 Prompt + RAG + 规范驱动 需求→规范→脚本能跑;能查规范/用例
第 3 月 Playwright 接口深耕 一条主路径连续稳定
第 4 月 CI + 小 Demo GitHub 能 clone、README 能看懂、CI 绿

某块多两周正常;以验收表为准,不以「课看完」为准。

附录:线 A 周检查清单(16 周,含底座)

前置 :已跳过系统测试入门。按每天 1.5~2 小时 (在职)估算;周末才学则周数 × 1.3~1.5。还在抄 Postman、pytest 跑不通 → 停在第 1~3 周,别往后挪。

周次 主题 本周交付物 验收(一句话)
1 换脑 对照表 +「三种通过」练习 能举例:何时用规则+人工代替唯一答案
2 pytest 入门 3 条真实接口进 test_*.py 本地 pytest 绿
3 脚本化 10 条手工回归一键跑 同事离职后你仍能本地批跑
4 API + 巩固 最小 API 封装(token 日志) 与第 2~3 周用例同一业务
5 Prompt prompts/gen_case.txt 需求 → 步骤/脚本骨架可复用
6 RAG rag/ 入库规范 + 用例 检索到再生成/改脚本,不是摆设目录
7 规范驱动 specs/SKILL.md 业务规则写进规范,不是空话
8 规范 + 脚本 规范对应 pytest 能跑 改需求能说改规范还是改脚本
9~10 接口 Playwright 起步 主路径第一条自动化 核心回归不点界面也能跑
11~12 接口 Playwright 深耕 扩展用例 / 一条 UI 冒烟 同路径连续 3 次绿
13 CI .github/workflows/ci.yml push 触发 pytest 绿
14~15 小 Demo 仓库 + README + 流程图 能口述:需求→Prompt→RAG→规范→脚本→CI
16 复盘 / 投递 简历线 A 段落 + 模拟面试 GitHub 外人能看懂你在做什么

Agent/MCP:第 16 周有余力则画四步流程图即可,不要求接 MCP。


线 B:测 AI 系统(心理预期 + 降级方案)

线 B 不是「功能测试升级版」 ,而是全新测试对象。第一次看到 RAG / Agent / 红队发懵很正常。

降级方案 :如果学线 B 两周仍在抄命令、说不清在测什么 ,先退回线 A 做深(pytest + 规范 + RAG + CI),不要硬扛线 B。

不要造轮子 :不要自己训模型、不要自己搭 RAG 框架内核、不要自己写 Agent 调度内核。会用、会评、会限流、会拦截 就够了。目标是守住 AI 的行为边界,不是「做出 AI」。

零基础阶段不是十个模块都要学完 。功能测试转岗 必会 :Prompt 工程、模型评测、RAG、Agent、安全(+ 可批跑的 AI 测试专项);可选 :性能与成本(会看延迟/Token 即可);进阶后置:多模态、微调、自研平台。

模块 你要做到(可验证) 工具举例
大模型基础 复习;Ollama=本地,LiteLLM=多模型接入 LiteLLM、Ollama
Prompt工程 定性清单 + 定量指标 + 批跑对比 Promptfoo、Langfuse
模型评测 20 个熟用例→输入/通过规则/人工结论;v1→v2 对比 Ragas、DeepEval
RAG 链路图 + 故障清单;评检索对不对 LlamaIndex + Chroma/Qdrant
Agent 能复现一个失败案例(固定种子) LangGraph/CrewAI 选一
AI测试专项 事实一致性、拒答边界、工具参数等 pytest 批跑
安全 5~10 条可回归红队用例,非论文级攻击 Garak、PyRIT
性能与成本 会看延迟/Token(可后置) Locust/k6 + Langfuse 等
项目实战 见下 project-demo 结构 自建 Demo
面试专题 用你自己的 report 讲拦/放行 ---

黄金集(动作版,别停在名词) :把你最熟的 20 个用例改写成 输入 + 通过规则 + 人工复核结论,git 标版本,批跑跑两轮------这就是「版本化 + 发布对比」。

project-demo 最小交付物

复制代码
project-demo/
├── README.md           # 测什么、怎么跑
├── golden_set.jsonl    # 10~30 条即可
├── run_eval.py         # 一键批跑
├── report.md           # 拦/放行 + 依据
└── .github/workflows/ci.yml

不会写 README.mdreport.md 的,不算能面试的项目。

功能测试 → 线 B 推荐节奏(约 4~5 个月,单线)

阶段 目标 验收
第 1 月 pytest 巩固 + Prompt 会调模型;评测用 Prompt 能写清 rubric
第 2 月 黄金集 + 评测 30~50 条可回归;能跑 v1→v2 对比
第 3 月 RAG + Agent 能画链路、列故障;有一个可复现坏例子
第 4 月 安全 + 报告 5~10 条红队用例进集;report 能支撑拦/放行
第 5 月(若要) 性能/成本或双线复盘 会读 Token/延迟;或整理投递材料

面试反套路 :可以说「这块还在学」;别说「做过 RAG 评测」却连召回率都算不出。

附录:线 B 周检查清单(20 周)

前置 :pytest 独立能写(线 A 底座或等价)。若第 1~2 周仍说不清「在测什么」→ 退回线 A 附录,不要硬扛。

周次 主题 本周交付物 验收(一句话)
1 pytest 巩固 评测批跑骨架(读 JSONL) 能批量跑输入、落盘结果
2 Prompt + rubric 评测 Prompt v1 + 定性清单 能判好坏,不只「感觉不行」
3 黄金集 熟用例 20 条 → 三列 jsonl 输入 / 通过规则 / 人工复核齐全
4 黄金集扩展 补到 30 条,git 标 v1 能说清增删与版本规则
5~6 批跑 + 指标 run_eval.py + Ragas/DeepEval 一项 一键跑完 v1,有数字指标
7 版本对比 v2(改 Prompt 或规则) 对比表或草稿:哪项变好/变差
8 report 草稿 report.md 前半 有对比结论,暂可不写最终拦/放行
9~10 RAG 链路图 + 故障清单 ≥8 条 至少 1 条能复现「检索错」类问题
11~12 Agent 工具/循环/记忆类用例 + 1 个固定种子坏例 坏例连跑 3 次同类失败
13 AI 测试专项 拒答/事实/工具参数等 ≥5 条进批跑 失败信息能当缺陷描述
14 安全 5~10 条红队用例进集 可回归,非一次性扫描
15~16 project-demo 五文件结构齐全 README + report 合格;他人能 clone 跑
17 发布决策 report.md 定稿 明确拦/放行 + 依据(指标+人工)
18~19 性能/成本(可选) Token/延迟截图或导出 能口头讲「贵在哪、慢在哪」
20 面试 + 简历 线 B 项目段落 + 模拟问答 用自己做过的 report,不背空框架

时间紧怎么砍(和功能测试更相关)

  1. pytest 必须独立能写------还在抄 Postman 就别往下走。
  2. 只保一条线的一个完整成果------别两条都「知道一点」。
  3. 线 A :按核心线 1~6 走;RAG 不能砍;Playwright 与接口二选一;Agent 只画图;MCP 砍。
  4. 线 B:黄金集维护 + RAG(含检索评测)+ Agent(可复现失败)+ 安全(可回归小集)。
  5. 明确不碰:系统 Python 课、完整测试入门、自训模型、自研 RAG/Agent 内核、完整商业平台(入职后再说)。

简历和面试:照抄模板再改数字

两条线的项目分开写,别混成一段「AI 测试全流程」。

线 A 项目写法(改 XX 和数字)

用 pytest + Prompt + 规范驱动,将 XX 业务 回归从 X 小时 缩短到 X 分钟 ,减少约 X% 重复脚本维护;规范与脚本分离,需求变更主要改 SKILL 层。

线 B 项目写法(改 XX 和数字)

负责 XX 场景 的模型评测,构建 50 条 黄金集(输入/规则/人工复核),基于 Ragas(或 DeepEval)完成 v1→v2 对比,输出 report.md 支撑一次发布 拦/放行 决策。

模拟面试练这一种说法(比背题像真人):

我们业务里 AI 占多少;我负责哪一段;当时为什么选这个指标;如果重来会改什么。


和零基础那篇,怎么配合读

你的情况 读哪篇 怎么用
没做过测试、没写过代码 《零基础 5~8 个月》 按阶段从头走
做过功能测试 本篇(裁剪版) 底座 3~4 周按本篇;线 A/B 细节需要时翻零基础篇对应节
不确定走哪条线 两篇开头「选主线」都看一眼 定主线后再裁剪

对照结论:你下一步干嘛

读完若仍不确定从哪下手,用下面两条对照(二选一):

如果你现在还在抄 Postman、pytest 跑不通:

👉 回到底座 3~4 周 (换脑 + 脚本化 + API),不要 急着上线 A / 线 B。跟本篇 「线 A 周检查清单」第 1~3 周「功能测试专用验收标准」 第一行。

如果你已经能脚本化回归(本地一键 pytest 绿):

👉 用本文 验收表 + 选择树 定主走线 A 或 B,按对应 周检查清单 推进,目标是一个 能 clone、README 能看懂 的 GitHub 项目(线 A 小 Demo 或线 B 的 project-demo)。

某块卡两周正常;以「本周交付物」验收,不以课表页数为准。


你觉得呢?

你更靠近线 A 还是线 B?现在卡在「换脑」、「脚本化」还是「黄金集」?评论区说,我帮你判断下一步该补哪一块,以及哪一块可以直接跳过。

给同样在转 AI 测试路上的功能测试同学转发一下。

关注测试员周周。如果你是零基础转行,请看《零基础转AI测试,5到8个月照着走》------不是本篇的加长版,两篇分工不同。


相关推荐
海盗12342 小时前
AI 每日要闻速递-2026年5月18日
人工智能
JavaAgent架构师2 小时前
Spring AI接入OpenAI报错401/429?3种原因+完整解决代码
人工智能·后端
RSTJ_16252 小时前
PYTHON+AI LLM DAY FOURTY-NINE
人工智能·python·深度学习
05大叔2 小时前
生成式任务
人工智能·语音识别
fengfuyao9852 小时前
基于MATLAB的ALOHA防碰撞、二进制搜索算法和帧时隙算法
人工智能·算法·matlab
多敲代码防脱发2 小时前
Spring进阶(Bean的生命周期与Bean的后处理器)
java·服务器·开发语言·spring boot·spring·servlet
Hali_Botebie2 小时前
【蒸馏】Tinybert:Distilling BERT for natural language understanding.
人工智能·深度学习·bert
吃好睡好便好2 小时前
在Matlab中绘制峰值图
开发语言·学习·算法·matlab·信息可视化
成都易yisdong2 小时前
成都某独立平面坐标系七参数估算实战:从CGCS2000到地方坐标系的转换
人工智能