AI 测试能力评估与个性化入门指南

第一部分：能力评估问卷

答题说明

共 25 题，分 5 个维度，每题 1 分。选 A=精通(2分) B=熟悉(1分) C=了解(0.5分) D=不会(0分)。

作答后按维度统计得分，对照第二部分获取个性化学习路径。

维度一：测试基础思维 (5题)

Q1. 如何测试一个 temperature=0.7 的 LLM 接口？

A) 多次调用统计输出分布，用方差/唯一率等指标断言

B) 固定输入断言输出包含某些关键词

C) 只调一次看结果对不对

D) 不知道怎么测

Q2. 你需要验证 LLM 输出"不包含个人隐私信息"，最佳做法是？

A) 正则匹配 PII 模式 + LLM 辅助审查双重检测

B) 人工抽查几条输出

C) 相信模型会自己过滤

D) 没想过这个问题

Q3. pytest 测试 LLM API 经常超时或返回空，怎么处理？

A) 指数退避重试 + 超时装饰器 + skip 标记

B) 加大 timeout 硬等

C) 重跑一次看看

D) 不知道

Q4. 给 LLM 同一 Prompt 调 10 次，8 次回答正确 2 次偏离，你如何断言？

A) 用通过率断言，如 assert pass_rate >= 0.7，并记录失败样本

B) 手动看哪些失败然后忽略

C) 只测通过的几次

D) 没有办法断言

Q5. 下面哪个是 AI 测试反模式？

A) 测试里硬编码 LLM 完整输出作为断言值

B) 用语义相似度断言输出在合理范围内

C) 用多指标综合评估

D) 不确定

维度二：评估与度量 (5题)

Q6. 计算 BLEU 分数的核心步骤是什么？

A) n-gram 精确率 + 短句惩罚系数

B) 编辑距离

C) 余弦相似度

D) 不清楚

Q7. 中文文本算 ROUGE 时直接用 rouge_score 库结果全是 0，原因是什么？

A) 库按空格分词，中文需要字符级实现（Counter + LCS）

B) ROUGE 不支持中文

C) 需要先翻译成英文

D) 没遇到过

Q8. "LLM-as-a-Judge" 的核心思路是？

A) 用另一个 LLM 对输出打分，结合结构化评分 Prompt

B) 用人工标注数据训练评估模型

C) 用规则匹配评估输出质量

D) 不了解

Q9. 评估 RAG 系统时，"忠实度(Faithfulness)" 衡量什么？

A) 回答是否忠实于检索到的上下文，有没有编造信息

B) 回答是否忠实于训练数据

C) 模型是否忠实地遵循了指令

D) 不确定

Q10. 幻觉检测中的"声明分解法"是指？

A) 把回答拆成多个独立声明，逐条对照上下文验证

B) 声明检测规则的分解

C) 把 Prompt 拆成多个子问题

D) 不知道

维度三：安全与 Agent 测试 (5题)

Q11. Prompt 注入攻击的常见手段有哪些？（多选概念）

A) 指令覆盖 + 角色劫持 + 编码绕过 + 间接注入，至少知道 3 种

B) 知道"忽略之前的指令"这类

C) 听说过但说不出具体类型

D) 完全不了解

Q12. 红队测试(Red Teaming)和普通测试的区别？

A) 红队站在攻击者角度系统化寻找漏洞，有攻击向量库+变体生成

B) 红队就是多写点负面测试

C) 红队是性能压测

D) 不了解

Q13. 测试 Agent 的多步推理时，应该验证什么？

A) 每一步的前提→推理→结论的逻辑一致性 + 最终结论可达性

B) 只验证最终结果对不对

C) 看工具调用次数够不够

D) 没思路

Q14. 如何测试 Agent 的工具调用？

A) 验证参数正确性 + 错误处理 + 边界情况 + 调用顺序

B) 确认能调通就行

C) Mock 掉工具不测真实调用

D) 没做过

Q15. 一个越狱(Jailbreak)检测器应该覆盖哪些维度？

A) 直接指令绕过 + 角色扮演 + 编码混淆 + 多轮诱导 + 安全话题伪装

B) 检测到脏词就拦截

C) 人工审核

D) 不清楚

维度四：自动化与工程实践 (5题)

Q16. 什么是 Golden Dataset？在 AI 测试中为什么重要？

A) 版本化的标准测试数据集，模型更新时跑同一组数据对比指标变化

B) 训练模型用的数据集

C) 一组固定的单元测试

D) 没听过

Q17. 快照测试(Snapshot Testing)在 LLM 测试中怎么用？

A) 保存 LLM 输出快照，后续运行对比差异，检测非预期变化

B) 对 UI 做截图对比

C) 保存数据库状态

D) 不了解

Q18. 契约测试(Contract Testing)解决什么问题？

A) 保证 API 接口变更不破坏向后兼容性（Schema + 版本检查）

B) 法律合同条款的测试

C) 微服务间网络通信测试

D) 不确定

Q19. LLM 性能测试要关注哪些指标？

A) TTFT(首token延迟) + TPS(生成速率) + P50/P95/P99 延迟 + token 成本

B) 只看响应时间

C) QPS 和 CPU 使用率

D) 不清楚

Q20. CI 管线中 AI 测试的 fail-fast 策略是什么？

A) 快速失败------发现关键测试失败立即停止，不浪费时间跑后续测试

B) 所有测试失败都忽略

C) 测试失败自动重试 N 次

D) 不了解

维度五：策略与架构 (5题)

Q21. AI 测试金字塔和传统测试金字塔有什么不同？

A) AI 金字塔中间层是 Mock 评估测试，顶层是真实 LLM 调用（更贵更慢）

B) 完全一样

C) AI 不需要金字塔，全部 E2E

D) 不了解

Q22. 以下哪种做法可以提高 AI 测试的可维护性？

A) Fixture 模板 + 参数化生成器 + 数据工厂模式

B) 把所有测试写在一个文件里

C) 硬编码所有测试数据

D) 不确定

Q23. 多模态 AI 测试（图像/音频）的核心挑战是什么？

A) 跨模态一致性验证 + 评估标准难以量化（如图像描述的"准确度"）

B) 文件格式处理

C) 就是多写几个断言

D) 没想过

Q24. 如何设计一个跨周测试聚合系统？

A) 统一结果格式 + 退化检测 + 历史趋势对比 + 健康度评分

B) 把所有测试放一个目录跑

C) 写个脚本循环跑 12 个目录

D) 没思路

Q25. 你负责一个 LLM 产品的质量，第一件要做的事是什么？

A) 建立评估基准（指标体系 + Golden Dataset + 自动化管线）

B) 开始写大量单元测试

C) 招更多测试人员

D) 不确定

第二部分：评分与能力画像

计分方法

每题：A=2分 B=1分 C=0.5分 D=0分

每个维度满分 10 分，总分满分 50 分。

能力等级

等级	总分	说明
S 专家	40-50	已具备独立设计 AI 测试体系的能力
A 熟练	30-39	掌握核心方法论，需补充实战经验
B 进阶	20-29	有基础认知，需要系统学习
C 入门	10-19	刚接触，需要从头学起
D 新手	0-9	零基础

维度画像

画出你的五维雷达图：

复制代码

         测试基础(10)
             |
   策略架构(10)---评估度量(10)
             |
  自动化工程(10)---安全Agent(10)

找出最弱的 1-2 个维度，这就是你的学习重点。

第三部分：个性化学习路径

路径 A：零基础入门（总分 0-19 或任意维度 ≤ 3）

目标：8 周建立 AI 测试基本能力

复制代码

Week 1-2: Week01 + Week02（测试基础 + 评估指标）
  - 每天投入 2 小时
  - 重点：理解 AI 测试和传统测试的区别
  - 产出：能写基本 Prompt 测试 + 用 BLEU/ROUGE 评估

Week 3-4: Week03 + Week04（LLM Judge + RAG 测试）
  - 重点：理解"用 LLM 评估 LLM"的思路
  - 产出：能手写简单评估指标 + 测试 RAG 检索质量

Week 5-6: Week05 + Week07（安全测试 + 自动化管线）
  - 跳过 Week06 Agent 测试（太进阶）
  - 重点：注入检测 + CI 流水线
  - 产出：能搭建基本 CI 管线 + 安全测试

Week 7-8: Week11 + Week12（E2E 实战 + 最佳实践）
  - 重点：快照测试 + 契约测试 + 反模式
  - 产出：能独立为 LLM 产品写端到端测试

每日节奏：

30 min 读源码理解原理
60 min 动手写测试
30 min 总结笔记

路径 B：有基础加速（总分 20-29）

目标：6 周掌握进阶技能

复制代码

Week 1: Week01 + Week02 快速回顾（1天过完）
  - 只做评估指标部分，确认 BLEU/ROUGE 概念清晰

Week 2: Week03 + Week04（重点周）
  - 深入 LLM-as-a-Judge 7 个指标
  - RAG 分层测试方法论
  - 产出：能设计完整 RAG 测试方案

Week 3: Week05 + Week06（安全 + Agent）
  - 红队测试框架 + 多步推理验证
  - 产出：能给 Agent 产品做安全评估

Week 4: Week07 + Week08（自动化 + 性能）
  - Golden Dataset + 负载测试
  - 产出：能搭建持续评估管线

Week 5: Week09 + Week10（多模态 + 工具链）
  - 按需学习，非必修
  - 如果产品涉及多模态则深入

Week 6: Week11 + Week12（实战整合）
  - E2E 测试 + 反模式审查
  - 产出：完整的 AI 测试方案文档

路径 C：进阶提升（总分 30-39）

目标：4 周查漏补缺 + 实战项目

复制代码

Week 1: 按弱项维度定向补充
  - 评估弱 → 深入 Week03-04
  - 安全弱 → 深入 Week05-06
  - 自动化弱 → 深入 Week07, 10-12
  - 策略弱 → 深入 Week12

Week 2: 实战项目 --- 为一个真实 LLM API 设计测试方案
  - 设计评估指标体系
  - 搭建 CI 管线
  - 写 E2E + 快照 + 契约测试

Week 3: 实战项目 --- Agent 产品测试
  - 红队测试
  - 多步推理验证
  - 工具调用测试

Week 4: 总结输出
  - 写测试策略文档
  - 反模式审查
  - 产出可复用的测试模板

路径 D：专家精进（总分 40-50）

目标：2 周打磨体系 + 分享输出

复制代码

Week 1: 体系化整理
  - 审查现有测试的反模式（Week12 工具）
  - 搭建跨项目聚合仪表盘（Week10）
  - 建立团队级测试规范

Week 2: 分享与布道
  - 内部分享：AI 测试方法论
  - 输出：团队 AI 测试 SOP
  - 开源：测试模板 / 工具封装

第四部分：各维度专项补强指南

测试基础弱（维度一 ≤ 5）

必学：Week01（全部 5 天）
核心练习：

给一个真实 LLM API 写 10 个测试（不同 temperature）
实现指数退避重试装饰器
写一个通过率断言工具

评估度量弱（维度二 ≤ 5）

必学：Week02 + Week03
核心练习：

手写 BLEU 和中文字符级 ROUGE
实现 3 个 Judge 指标（相关性/忠实度/偏见）
给客服场景设计评估方案

安全Agent弱（维度三 ≤ 5）

必学：Week05 + Week06
核心练习：

写一个注入检测器（覆盖 5 种攻击向量）
搭建红队测试框架
给一个 Agent 写多步推理验证测试

自动化工程弱（维度四 ≤ 5）

必学：Week07 + Week08 + Week11
核心练习：

搭建 Golden Dataset 管线
实现快照测试 + 契约测试
设计 CI fail-fast 策略

策略架构弱（维度五 ≤ 5）

必学：Week10 + Week12
核心练习：

画测试金字塔并标注你的项目现状
用反模式检测工具审查测试代码
写一份 AI 测试策略文档

快速自评表（1分钟版）

没时间做 25 题？用这个快速版：

能解释 AI 测试和传统测试的 3 个区别吗？(Y/N)
能手写 BLEU 或 ROUGE 计算吗？(Y/N)
知道 LLM-as-a-Judge 是什么吗？(Y/N)
能说出 3 种 Prompt 注入攻击类型吗？(Y/N)
知道 Golden Dataset 是什么吗？(Y/N)
能解释快照测试和契约测试的区别吗？(Y/N)
知道 TTFT 和 TPS 是什么吗？(Y/N)
能画出 AI 测试金字塔吗？(Y/N)

Y 数	等级	推荐路径
0-2	D/C	路径 A
3-4	B	路径 B
5-6	A	路径 C
7-8	S	路径 D

本评估基于 12 周 AI 测试课程（1330+ 测试用例）设计，题目覆盖 Prompt 测试、评估指标、安全测试、Agent 测试、自动化工程、测试策略六大领域。