AI 测试能力评估与个性化入门指南
第一部分:能力评估问卷
答题说明
共 25 题,分 5 个维度,每题 1 分。选 A=精通(2分) B=熟悉(1分) C=了解(0.5分) D=不会(0分)。
作答后按维度统计得分,对照第二部分获取个性化学习路径。
维度一:测试基础思维 (5题)
Q1. 如何测试一个 temperature=0.7 的 LLM 接口?
A) 多次调用统计输出分布,用方差/唯一率等指标断言
B) 固定输入断言输出包含某些关键词
C) 只调一次看结果对不对
D) 不知道怎么测
Q2. 你需要验证 LLM 输出"不包含个人隐私信息",最佳做法是?
A) 正则匹配 PII 模式 + LLM 辅助审查双重检测
B) 人工抽查几条输出
C) 相信模型会自己过滤
D) 没想过这个问题
Q3. pytest 测试 LLM API 经常超时或返回空,怎么处理?
A) 指数退避重试 + 超时装饰器 + skip 标记
B) 加大 timeout 硬等
C) 重跑一次看看
D) 不知道
Q4. 给 LLM 同一 Prompt 调 10 次,8 次回答正确 2 次偏离,你如何断言?
A) 用通过率断言,如 assert pass_rate >= 0.7,并记录失败样本
B) 手动看哪些失败然后忽略
C) 只测通过的几次
D) 没有办法断言
Q5. 下面哪个是 AI 测试反模式?
A) 测试里硬编码 LLM 完整输出作为断言值
B) 用语义相似度断言输出在合理范围内
C) 用多指标综合评估
D) 不确定
维度二:评估与度量 (5题)
Q6. 计算 BLEU 分数的核心步骤是什么?
A) n-gram 精确率 + 短句惩罚系数
B) 编辑距离
C) 余弦相似度
D) 不清楚
Q7. 中文文本算 ROUGE 时直接用 rouge_score 库结果全是 0,原因是什么?
A) 库按空格分词,中文需要字符级实现(Counter + LCS)
B) ROUGE 不支持中文
C) 需要先翻译成英文
D) 没遇到过
Q8. "LLM-as-a-Judge" 的核心思路是?
A) 用另一个 LLM 对输出打分,结合结构化评分 Prompt
B) 用人工标注数据训练评估模型
C) 用规则匹配评估输出质量
D) 不了解
Q9. 评估 RAG 系统时,"忠实度(Faithfulness)" 衡量什么?
A) 回答是否忠实于检索到的上下文,有没有编造信息
B) 回答是否忠实于训练数据
C) 模型是否忠实地遵循了指令
D) 不确定
Q10. 幻觉检测中的"声明分解法"是指?
A) 把回答拆成多个独立声明,逐条对照上下文验证
B) 声明检测规则的分解
C) 把 Prompt 拆成多个子问题
D) 不知道
维度三:安全与 Agent 测试 (5题)
Q11. Prompt 注入攻击的常见手段有哪些?(多选概念)
A) 指令覆盖 + 角色劫持 + 编码绕过 + 间接注入,至少知道 3 种
B) 知道"忽略之前的指令"这类
C) 听说过但说不出具体类型
D) 完全不了解
Q12. 红队测试(Red Teaming)和普通测试的区别?
A) 红队站在攻击者角度系统化寻找漏洞,有攻击向量库+变体生成
B) 红队就是多写点负面测试
C) 红队是性能压测
D) 不了解
Q13. 测试 Agent 的多步推理时,应该验证什么?
A) 每一步的前提→推理→结论的逻辑一致性 + 最终结论可达性
B) 只验证最终结果对不对
C) 看工具调用次数够不够
D) 没思路
Q14. 如何测试 Agent 的工具调用?
A) 验证参数正确性 + 错误处理 + 边界情况 + 调用顺序
B) 确认能调通就行
C) Mock 掉工具不测真实调用
D) 没做过
Q15. 一个越狱(Jailbreak)检测器应该覆盖哪些维度?
A) 直接指令绕过 + 角色扮演 + 编码混淆 + 多轮诱导 + 安全话题伪装
B) 检测到脏词就拦截
C) 人工审核
D) 不清楚
维度四:自动化与工程实践 (5题)
Q16. 什么是 Golden Dataset?在 AI 测试中为什么重要?
A) 版本化的标准测试数据集,模型更新时跑同一组数据对比指标变化
B) 训练模型用的数据集
C) 一组固定的单元测试
D) 没听过
Q17. 快照测试(Snapshot Testing)在 LLM 测试中怎么用?
A) 保存 LLM 输出快照,后续运行对比差异,检测非预期变化
B) 对 UI 做截图对比
C) 保存数据库状态
D) 不了解
Q18. 契约测试(Contract Testing)解决什么问题?
A) 保证 API 接口变更不破坏向后兼容性(Schema + 版本检查)
B) 法律合同条款的测试
C) 微服务间网络通信测试
D) 不确定
Q19. LLM 性能测试要关注哪些指标?
A) TTFT(首token延迟) + TPS(生成速率) + P50/P95/P99 延迟 + token 成本
B) 只看响应时间
C) QPS 和 CPU 使用率
D) 不清楚
Q20. CI 管线中 AI 测试的 fail-fast 策略是什么?
A) 快速失败------发现关键测试失败立即停止,不浪费时间跑后续测试
B) 所有测试失败都忽略
C) 测试失败自动重试 N 次
D) 不了解
维度五:策略与架构 (5题)
Q21. AI 测试金字塔和传统测试金字塔有什么不同?
A) AI 金字塔中间层是 Mock 评估测试,顶层是真实 LLM 调用(更贵更慢)
B) 完全一样
C) AI 不需要金字塔,全部 E2E
D) 不了解
Q22. 以下哪种做法可以提高 AI 测试的可维护性?
A) Fixture 模板 + 参数化生成器 + 数据工厂模式
B) 把所有测试写在一个文件里
C) 硬编码所有测试数据
D) 不确定
Q23. 多模态 AI 测试(图像/音频)的核心挑战是什么?
A) 跨模态一致性验证 + 评估标准难以量化(如图像描述的"准确度")
B) 文件格式处理
C) 就是多写几个断言
D) 没想过
Q24. 如何设计一个跨周测试聚合系统?
A) 统一结果格式 + 退化检测 + 历史趋势对比 + 健康度评分
B) 把所有测试放一个目录跑
C) 写个脚本循环跑 12 个目录
D) 没思路
Q25. 你负责一个 LLM 产品的质量,第一件要做的事是什么?
A) 建立评估基准(指标体系 + Golden Dataset + 自动化管线)
B) 开始写大量单元测试
C) 招更多测试人员
D) 不确定
第二部分:评分与能力画像
计分方法
每题:A=2分 B=1分 C=0.5分 D=0分
每个维度满分 10 分,总分满分 50 分。
能力等级
| 等级 | 总分 | 说明 |
|---|---|---|
| S 专家 | 40-50 | 已具备独立设计 AI 测试体系的能力 |
| A 熟练 | 30-39 | 掌握核心方法论,需补充实战经验 |
| B 进阶 | 20-29 | 有基础认知,需要系统学习 |
| C 入门 | 10-19 | 刚接触,需要从头学起 |
| D 新手 | 0-9 | 零基础 |
维度画像
画出你的五维雷达图:
测试基础(10)
|
策略架构(10)---评估度量(10)
|
自动化工程(10)---安全Agent(10)
找出最弱的 1-2 个维度,这就是你的学习重点。
第三部分:个性化学习路径
路径 A:零基础入门(总分 0-19 或任意维度 ≤ 3)
目标:8 周建立 AI 测试基本能力
Week 1-2: Week01 + Week02(测试基础 + 评估指标)
- 每天投入 2 小时
- 重点:理解 AI 测试和传统测试的区别
- 产出:能写基本 Prompt 测试 + 用 BLEU/ROUGE 评估
Week 3-4: Week03 + Week04(LLM Judge + RAG 测试)
- 重点:理解"用 LLM 评估 LLM"的思路
- 产出:能手写简单评估指标 + 测试 RAG 检索质量
Week 5-6: Week05 + Week07(安全测试 + 自动化管线)
- 跳过 Week06 Agent 测试(太进阶)
- 重点:注入检测 + CI 流水线
- 产出:能搭建基本 CI 管线 + 安全测试
Week 7-8: Week11 + Week12(E2E 实战 + 最佳实践)
- 重点:快照测试 + 契约测试 + 反模式
- 产出:能独立为 LLM 产品写端到端测试
每日节奏:
- 30 min 读源码理解原理
- 60 min 动手写测试
- 30 min 总结笔记
路径 B:有基础加速(总分 20-29)
目标:6 周掌握进阶技能
Week 1: Week01 + Week02 快速回顾(1天过完)
- 只做评估指标部分,确认 BLEU/ROUGE 概念清晰
Week 2: Week03 + Week04(重点周)
- 深入 LLM-as-a-Judge 7 个指标
- RAG 分层测试方法论
- 产出:能设计完整 RAG 测试方案
Week 3: Week05 + Week06(安全 + Agent)
- 红队测试框架 + 多步推理验证
- 产出:能给 Agent 产品做安全评估
Week 4: Week07 + Week08(自动化 + 性能)
- Golden Dataset + 负载测试
- 产出:能搭建持续评估管线
Week 5: Week09 + Week10(多模态 + 工具链)
- 按需学习,非必修
- 如果产品涉及多模态则深入
Week 6: Week11 + Week12(实战整合)
- E2E 测试 + 反模式审查
- 产出:完整的 AI 测试方案文档
路径 C:进阶提升(总分 30-39)
目标:4 周查漏补缺 + 实战项目
Week 1: 按弱项维度定向补充
- 评估弱 → 深入 Week03-04
- 安全弱 → 深入 Week05-06
- 自动化弱 → 深入 Week07, 10-12
- 策略弱 → 深入 Week12
Week 2: 实战项目 --- 为一个真实 LLM API 设计测试方案
- 设计评估指标体系
- 搭建 CI 管线
- 写 E2E + 快照 + 契约测试
Week 3: 实战项目 --- Agent 产品测试
- 红队测试
- 多步推理验证
- 工具调用测试
Week 4: 总结输出
- 写测试策略文档
- 反模式审查
- 产出可复用的测试模板
路径 D:专家精进(总分 40-50)
目标:2 周打磨体系 + 分享输出
Week 1: 体系化整理
- 审查现有测试的反模式(Week12 工具)
- 搭建跨项目聚合仪表盘(Week10)
- 建立团队级测试规范
Week 2: 分享与布道
- 内部分享:AI 测试方法论
- 输出:团队 AI 测试 SOP
- 开源:测试模板 / 工具封装
第四部分:各维度专项补强指南
测试基础弱(维度一 ≤ 5)
必学 :Week01(全部 5 天)
核心练习:
- 给一个真实 LLM API 写 10 个测试(不同 temperature)
- 实现指数退避重试装饰器
- 写一个通过率断言工具
评估度量弱(维度二 ≤ 5)
必学 :Week02 + Week03
核心练习:
- 手写 BLEU 和中文字符级 ROUGE
- 实现 3 个 Judge 指标(相关性/忠实度/偏见)
- 给客服场景设计评估方案
安全Agent弱(维度三 ≤ 5)
必学 :Week05 + Week06
核心练习:
- 写一个注入检测器(覆盖 5 种攻击向量)
- 搭建红队测试框架
- 给一个 Agent 写多步推理验证测试
自动化工程弱(维度四 ≤ 5)
必学 :Week07 + Week08 + Week11
核心练习:
- 搭建 Golden Dataset 管线
- 实现快照测试 + 契约测试
- 设计 CI fail-fast 策略
策略架构弱(维度五 ≤ 5)
必学 :Week10 + Week12
核心练习:
- 画测试金字塔并标注你的项目现状
- 用反模式检测工具审查测试代码
- 写一份 AI 测试策略文档
快速自评表(1分钟版)
没时间做 25 题?用这个快速版:
- 能解释 AI 测试和传统测试的 3 个区别吗?(Y/N)
- 能手写 BLEU 或 ROUGE 计算吗?(Y/N)
- 知道 LLM-as-a-Judge 是什么吗?(Y/N)
- 能说出 3 种 Prompt 注入攻击类型吗?(Y/N)
- 知道 Golden Dataset 是什么吗?(Y/N)
- 能解释快照测试和契约测试的区别吗?(Y/N)
- 知道 TTFT 和 TPS 是什么吗?(Y/N)
- 能画出 AI 测试金字塔吗?(Y/N)
| Y 数 | 等级 | 推荐路径 |
|---|---|---|
| 0-2 | D/C | 路径 A |
| 3-4 | B | 路径 B |
| 5-6 | A | 路径 C |
| 7-8 | S | 路径 D |
本评估基于 12 周 AI 测试课程(1330+ 测试用例)设计,题目覆盖 Prompt 测试、评估指标、安全测试、Agent 测试、自动化工程、测试策略六大领域。