【AI测试路线图2】功能测试转 AI 测试：4～5 个月，一条最稳的路

导读：这篇不是《零基础 5～8 个月》的精简版，而是专门给「会测但不确定要补多少」的人看的裁剪版。你有用例、缺陷、业务沟通------不用推倒重来。真正要补的通常只有两块：脚本能不能落地 （约 3～4 周），以及 脑子能不能接受没有唯一标准答案（换脑约 1 周）。线 A、线 B 各块细节需要时再翻零基础篇对应节；本篇只写：跳过什么、硬磕什么、做到什么算过关、怎么排四个月。

作者：测试员周周 | 14 年测试老兵

阅读时间：约 10 分钟

搭配阅读：《零基础转AI测试，5到8个月照着走》------需要某一块「学到哪就够」时再去翻

先选对篇、选对线（选择树）

复制代码

你是谁？
├─ 零基础 / 没写过代码 → 读《零基础转AI测试，5～8个月照着走》
└─ 会功能测试 / 会用例 → 读《本篇》
    ├─ 业务里 AI 占比小 → 主走线 A（赋能：AI 帮你测业务）
    └─ 岗位明确是 AI / Agent 产品 → 主走线 B（测智能行为）

定好「读哪篇、主走哪条线」再往下翻；两条线不要混成一门课。

我带过的功能测试同事里，转得最快的往往不是学得最拼的，而是最先想清楚走线 A 还是线 B、并且没把零基础路线图从头抄一遍的那个。

很多人学了一阵觉得「跟上一篇没区别」，问题往往在这里：你已经会写用例了，却还去啃两三周的测试入门；你已经会在 Excel 里点回归了，却还在系统学 Python，三个月还没跑通第一批 pytest。

你不是「不会测试」 ------你只是第一次遇到没有唯一正确答案的被测对象。这句话能帮你减掉一半无谓焦虑。

你和零基础，差在哪（先对这张表）

维度	零基础要先...	你已经...	所以你应该...
测试思维	学 2～4 周「测试在测什么」	会写用例、会追缺陷	跳过系统测试入门，最多复习 2～3 天
编程	6～8 周 pytest，往往最磨人	可能只会 Postman / 偶尔抄脚本	用 3～4 周把「会测」升级成「能脚本化」，再进主线（见下节底座）
业务	没有	懂场景和风险	做黄金集、写规范时直接当优势用
预期结果	习惯「一个标准答案」	同上	先花一周换脑，否则测大模型会很难受
总周期（两条线各一个小成果）	5～8 个月	---	冲刺 4～5 个月 / 稳妥 4～6 个月（在职每天 1.5～2 小时）

周末才学、或每天不足 1.5 小时，在「稳妥版」上乘 1.3～1.5。刚毕业全力学、每天 2～3 小时，还能再快半档。

线 A 和线 B 不是「简单 vs 难」 ，而是 测普通软件 vs 测智能行为（被测对象、确定性、风险点都不同）。先定主线，再裁剪，不要两条线混成一门课。

功能测试专用验收标准（做到什么算过关）

下面把抽象词换成你能对照检查的动作。过不了某一格，就还在那一格，别急着进 Agent / 红队。

原来你会	现在要做到（可验证）
写 Excel 用例	同一批用例能变成 pytest ，本地一键跑完
口头说业务规则	能写成 SKILL.md（或等价规范），改规范能改出生成/脚本方向
手工点回归	不打开界面也能跑完核心接口/UI 冒烟（Playwright 或接口二选一）
报 Bug	能说清 AI 相关失败类型（如检索错、幻觉、工具调错）和风险档
做验收 / 签字	能根据指标 + 人工复核说拦 / 放行（哪怕只对比两个 Prompt 版本）

规范驱动做到哪 ：有一份你自己写的规范 + 对应 pytest/Playwright 能跑；别人改需求时，你能说清改规范还是改脚本。

黄金集版本化 ：把你最熟的 20 个用例 改写成三列------输入、通过规则 、人工复核结论 ------这就是第一个黄金集；用 git 或文件名标 v1/v2，能 批跑对比两次发布。

Agent「能画图」 ：能画出「需求 → Prompt/规范 → 执行 → 报告」四步，不要求自己写调度内核。

如果你现在还在抄 Postman 导出脚本、却跑不通 pytest ，说明还没出底座阶段，别进线 A 后面的 RAG / Agent。

10 分钟选主线（别两条线混成一门课）

团队仍是传统业务为主 （电商、后台、App），AI 多半用来写用例、生成脚本 → 主学线 A（赋能）。线 B 补到：能列几种 AI 失效模式、能参与黄金集评审即可，大约一两成时间。

岗位明确是大模型应用、智能客服、Agent → 主学线 B。线 A 至少要：pytest 能独立写 + 一条接口或 UI 冒烟能跑，否则评测只能停留在 Excel 点检。

JD 两条都写 → 两个方向各做一个能打开演示的小成果；面试先说你们产品里 AI 占多大，再展开。比简历堆十个框架名管用。

共同底座：3～4 周，不是「两三周搞定一切」

口径统一：换脑约 1 周 + 脚本化 2～3 周 + API 3～4 天（可与脚本化并行）≈ 3～4 周。不是「两周补完、第三周就上 Agent」。

换脑：传统测法和 AI 测法差在哪（约 1 周，必做）

自己画一页对照：左列你熟悉的测法，右列写------用 AI 辅助时变在哪、测 AI 产品时又变在哪。

最小练习（换脑周必做一次） ：找一个你熟的老用例，强行写出三种不同但都算「通过」的结果 ，并写下哪一种算好、为什么------这就是以后评大模型时「规则 + 人工」的预演。

很多人转型半年仍用「必须唯一预期结果」去卡大模型，问题就出在这一步。

学到哪就够：能举例说明预期结果什么时候从「一个答案」变成「规则 + 区间 + 人工评分标准」。

脚本化：把你会测的东西变成能重复跑的（2～3 周，最容易拖）

把一组真实手工回归改成 pytest：请求接口、断言、结果落盘。

学到哪就够 ：同事离职后，你仍能在本地一键跑完这批用例。

功能测试常见坑：

「我会 Postman」≠ 自动化
追求框架完美，三个月还没跑通第一批
只抄代码，不知道断言在守什么业务规则

大模型 API（3～4 天，可与脚本化并行）

调通 API、懂 Token 和上下文、知道输出为何不稳定。走线 A 往往到这里就够；走线 B 后面在 Prompt 和评测上加深。

底座阶段可以明确跳过：系统 Python 课、完整测试入门书、从零学「测试是干什么的」。

线 A：AI 赋能测试（功能测试往往上手最快）

线 A 的 Agent / MCP 不是让你去做 AI 产品 ，而是让你知道：测试流程可以被编排 。时间紧时 只要求能画图 ；MCP 建议跳过，浏览器用 Playwright 直连。

核心线顺序（不要打乱，RAG 不能后置）：

复制代码

pytest → Prompt → RAG（查规范/用例/缺陷）→ 规范驱动 → 接口 or Playwright → CI

RAG 是 Prompt 和规范的记忆外挂，不是「高级选修、以后再加」。

模块	你要做到（可验证）	工具举例
pytest	手工回归→一键批跑	pytest、httpx
Prompt	需求→可生成步骤/脚本	Promptfoo（可选）
RAG	规范/用例能检索到再生成	Chroma、Qdrant
规范驱动	SKILL.md + 脚本能跑	SKILL.md
Playwright 或接口	一条主路径稳定	Playwright / httpx
CI	提交能跑 pytest	GitHub Actions
Agent编排（可选）	四步流水线能画图	LangGraph
MCP（可选）	时间紧跳过	---

功能测试 → 线 A 推荐节奏（约 4 个月，单线，不要双线并行表）

阶段	目标	验收
第 1 月	pytest + 接口	手工回归能脚本化，一键跑完
第 2 月	Prompt + RAG + 规范驱动	需求→规范→脚本能跑；能查规范/用例
第 3 月	Playwright 或接口深耕	一条主路径连续稳定
第 4 月	CI + 小 Demo	GitHub 能 clone、README 能看懂、CI 绿

某块多两周正常；以验收表为准，不以「课看完」为准。

附录：线 A 周检查清单（16 周，含底座）

前置：已跳过系统测试入门。按每天 1.5～2 小时 （在职）估算；周末才学则周数 × 1.3～1.5。还在抄 Postman、pytest 跑不通 → 停在第 1～3 周，别往后挪。

周次	主题	本周交付物	验收（一句话）
1	换脑	对照表 +「三种通过」练习	能举例：何时用规则+人工代替唯一答案
2	pytest 入门	3 条真实接口进 `test_*.py`	本地 pytest 绿
3	脚本化	10 条手工回归一键跑	同事离职后你仍能本地批跑
4	API + 巩固	最小 API 封装（token 日志）	与第 2～3 周用例同一业务
5	Prompt	`prompts/gen_case.txt` 等	需求 → 步骤/脚本骨架可复用
6	RAG	`rag/` 入库规范 + 用例	检索到再生成/改脚本，不是摆设目录
7	规范驱动	`specs/SKILL.md`	业务规则写进规范，不是空话
8	规范 + 脚本	规范对应 pytest 能跑	改需求能说改规范还是改脚本
9～10	接口或 Playwright 起步	主路径第一条自动化	核心回归不点界面也能跑
11～12	接口或 Playwright 深耕	扩展用例 / 一条 UI 冒烟	同路径连续 3 次绿
13	CI	`.github/workflows/ci.yml`	push 触发 pytest 绿
14～15	小 Demo	仓库 + README + 流程图	能口述：需求→Prompt→RAG→规范→脚本→CI
16	复盘 / 投递	简历线 A 段落 + 模拟面试	GitHub 外人能看懂你在做什么

Agent/MCP：第 16 周有余力则画四步流程图即可，不要求接 MCP。

线 B：测 AI 系统（心理预期 + 降级方案）

线 B 不是「功能测试升级版」 ，而是全新测试对象。第一次看到 RAG / Agent / 红队发懵很正常。

降级方案 ：如果学线 B 两周仍在抄命令、说不清在测什么 ，先退回线 A 做深（pytest + 规范 + RAG + CI），不要硬扛线 B。

不要造轮子 ：不要自己训模型、不要自己搭 RAG 框架内核、不要自己写 Agent 调度内核。会用、会评、会限流、会拦截 就够了。目标是守住 AI 的行为边界，不是「做出 AI」。

零基础阶段不是十个模块都要学完 。功能测试转岗必会：Prompt 工程、模型评测、RAG、Agent、安全（+ 可批跑的 AI 测试专项）；可选：性能与成本（会看延迟/Token 即可）；进阶后置：多模态、微调、自研平台。

模块	你要做到（可验证）	工具举例
大模型基础	复习；Ollama=本地，LiteLLM=多模型接入	LiteLLM、Ollama
Prompt工程	定性清单 + 定量指标 + 批跑对比	Promptfoo、Langfuse
模型评测	20 个熟用例→输入/通过规则/人工结论；v1→v2 对比	Ragas、DeepEval
RAG	链路图 + 故障清单；评检索对不对	LlamaIndex + Chroma/Qdrant
Agent	能复现一个失败案例（固定种子）	LangGraph/CrewAI 选一
AI测试专项	事实一致性、拒答边界、工具参数等	pytest 批跑
安全	5～10 条可回归红队用例，非论文级攻击	Garak、PyRIT
性能与成本	会看延迟/Token（可后置）	Locust/k6 + Langfuse 等
项目实战	见下 project-demo 结构	自建 Demo
面试专题	用你自己的 report 讲拦/放行	---

黄金集（动作版，别停在名词） ：把你最熟的 20 个用例改写成 输入 + 通过规则 + 人工复核结论，git 标版本，批跑跑两轮------这就是「版本化 + 发布对比」。

project-demo 最小交付物：

复制代码

project-demo/
├── README.md           # 测什么、怎么跑
├── golden_set.jsonl    # 10～30 条即可
├── run_eval.py         # 一键批跑
├── report.md           # 拦/放行 + 依据
└── .github/workflows/ci.yml

不会写 README.md 和 report.md 的，不算能面试的项目。

功能测试 → 线 B 推荐节奏（约 4～5 个月，单线）

阶段	目标	验收
第 1 月	pytest 巩固 + Prompt	会调模型；评测用 Prompt 能写清 rubric
第 2 月	黄金集 + 评测	30～50 条可回归；能跑 v1→v2 对比
第 3 月	RAG + Agent	能画链路、列故障；有一个可复现坏例子
第 4 月	安全 + 报告	5～10 条红队用例进集；report 能支撑拦/放行
第 5 月（若要）	性能/成本或双线复盘	会读 Token/延迟；或整理投递材料

面试反套路 ：可以说「这块还在学」；别说「做过 RAG 评测」却连召回率都算不出。

附录：线 B 周检查清单（20 周）

前置：pytest 独立能写（线 A 底座或等价）。若第 1～2 周仍说不清「在测什么」→ 退回线 A 附录，不要硬扛。

周次	主题	本周交付物	验收（一句话）
1	pytest 巩固	评测批跑骨架（读 JSONL）	能批量跑输入、落盘结果
2	Prompt + rubric	评测 Prompt v1 + 定性清单	能判好坏，不只「感觉不行」
3	黄金集	熟用例 20 条 → 三列 jsonl	输入 / 通过规则 / 人工复核齐全
4	黄金集扩展	补到 30 条，git 标 v1	能说清增删与版本规则
5～6	批跑 + 指标	`run_eval.py` + Ragas/DeepEval 一项	一键跑完 v1，有数字指标
7	版本对比	v2（改 Prompt 或规则）	对比表或草稿：哪项变好/变差
8	report 草稿	`report.md` 前半	有对比结论，暂可不写最终拦/放行
9～10	RAG	链路图 + 故障清单 ≥8 条	至少 1 条能复现「检索错」类问题
11～12	Agent	工具/循环/记忆类用例 + 1 个固定种子坏例	坏例连跑 3 次同类失败
13	AI 测试专项	拒答/事实/工具参数等 ≥5 条进批跑	失败信息能当缺陷描述
14	安全	5～10 条红队用例进集	可回归，非一次性扫描
15～16	project-demo	五文件结构齐全	README + report 合格；他人能 clone 跑
17	发布决策	`report.md` 定稿	明确拦/放行 + 依据（指标+人工）
18～19	性能/成本（可选）	Token/延迟截图或导出	能口头讲「贵在哪、慢在哪」
20	面试 + 简历	线 B 项目段落 + 模拟问答	用自己做过的 report，不背空框架

时间紧怎么砍（和功能测试更相关）

pytest 必须独立能写------还在抄 Postman 就别往下走。
只保一条线的一个完整成果------别两条都「知道一点」。
线 A ：按核心线 1～6 走；RAG 不能砍；Playwright 与接口二选一；Agent 只画图；MCP 砍。
线 B：黄金集维护 + RAG（含检索评测）+ Agent（可复现失败）+ 安全（可回归小集）。
明确不碰：系统 Python 课、完整测试入门、自训模型、自研 RAG/Agent 内核、完整商业平台（入职后再说）。

简历和面试：照抄模板再改数字

两条线的项目分开写，别混成一段「AI 测试全流程」。

线 A 项目写法（改 XX 和数字）：

用 pytest + Prompt + 规范驱动，将 XX 业务 回归从 X 小时 缩短到 X 分钟 ，减少约 X% 重复脚本维护；规范与脚本分离，需求变更主要改 SKILL 层。

线 B 项目写法（改 XX 和数字）：

负责 XX 场景 的模型评测，构建 50 条 黄金集（输入/规则/人工复核），基于 Ragas（或 DeepEval）完成 v1→v2 对比，输出 report.md 支撑一次发布 拦/放行 决策。

模拟面试练这一种说法（比背题像真人）：

我们业务里 AI 占多少；我负责哪一段；当时为什么选这个指标；如果重来会改什么。

和零基础那篇，怎么配合读

你的情况	读哪篇	怎么用
没做过测试、没写过代码	《零基础 5～8 个月》	按阶段从头走
做过功能测试	本篇（裁剪版）	底座 3～4 周按本篇；线 A/B 细节需要时翻零基础篇对应节
不确定走哪条线	两篇开头「选主线」都看一眼	定主线后再裁剪

对照结论：你下一步干嘛

读完若仍不确定从哪下手，用下面两条对照（二选一）：

如果你现在还在抄 Postman、pytest 跑不通：

👉 回到底座 3～4 周 （换脑 + 脚本化 + API），不要急着上线 A / 线 B。跟本篇 「线 A 周检查清单」第 1～3 周 或 「功能测试专用验收标准」 第一行。

如果你已经能脚本化回归（本地一键 pytest 绿）：

👉 用本文 验收表 + 选择树 定主走线 A 或 B，按对应 周检查清单 推进，目标是一个 能 clone、README 能看懂 的 GitHub 项目（线 A 小 Demo 或线 B 的 project-demo）。

某块卡两周正常；以「本周交付物」验收，不以课表页数为准。

你觉得呢？

你更靠近线 A 还是线 B？现在卡在「换脑」、「脚本化」还是「黄金集」？评论区说，我帮你判断下一步该补哪一块，以及哪一块可以直接跳过。

给同样在转 AI 测试路上的功能测试同学转发一下。

关注测试员周周。如果你是零基础转行，请看《零基础转AI测试，5到8个月照着走》------不是本篇的加长版，两篇分工不同。