AI 测试能力评估与个性化入门指南

AI 测试能力评估与个性化入门指南


第一部分:能力评估问卷

答题说明

共 25 题,分 5 个维度,每题 1 分。选 A=精通(2分) B=熟悉(1分) C=了解(0.5分) D=不会(0分)。

作答后按维度统计得分,对照第二部分获取个性化学习路径。


维度一:测试基础思维 (5题)

Q1. 如何测试一个 temperature=0.7 的 LLM 接口?

A) 多次调用统计输出分布,用方差/唯一率等指标断言

B) 固定输入断言输出包含某些关键词

C) 只调一次看结果对不对

D) 不知道怎么测

Q2. 你需要验证 LLM 输出"不包含个人隐私信息",最佳做法是?

A) 正则匹配 PII 模式 + LLM 辅助审查双重检测

B) 人工抽查几条输出

C) 相信模型会自己过滤

D) 没想过这个问题

Q3. pytest 测试 LLM API 经常超时或返回空,怎么处理?

A) 指数退避重试 + 超时装饰器 + skip 标记

B) 加大 timeout 硬等

C) 重跑一次看看

D) 不知道

Q4. 给 LLM 同一 Prompt 调 10 次,8 次回答正确 2 次偏离,你如何断言?

A) 用通过率断言,如 assert pass_rate >= 0.7,并记录失败样本

B) 手动看哪些失败然后忽略

C) 只测通过的几次

D) 没有办法断言

Q5. 下面哪个是 AI 测试反模式?

A) 测试里硬编码 LLM 完整输出作为断言值

B) 用语义相似度断言输出在合理范围内

C) 用多指标综合评估

D) 不确定


维度二:评估与度量 (5题)

Q6. 计算 BLEU 分数的核心步骤是什么?

A) n-gram 精确率 + 短句惩罚系数

B) 编辑距离

C) 余弦相似度

D) 不清楚

Q7. 中文文本算 ROUGE 时直接用 rouge_score 库结果全是 0,原因是什么?

A) 库按空格分词,中文需要字符级实现(Counter + LCS)

B) ROUGE 不支持中文

C) 需要先翻译成英文

D) 没遇到过

Q8. "LLM-as-a-Judge" 的核心思路是?

A) 用另一个 LLM 对输出打分,结合结构化评分 Prompt

B) 用人工标注数据训练评估模型

C) 用规则匹配评估输出质量

D) 不了解

Q9. 评估 RAG 系统时,"忠实度(Faithfulness)" 衡量什么?

A) 回答是否忠实于检索到的上下文,有没有编造信息

B) 回答是否忠实于训练数据

C) 模型是否忠实地遵循了指令

D) 不确定

Q10. 幻觉检测中的"声明分解法"是指?

A) 把回答拆成多个独立声明,逐条对照上下文验证

B) 声明检测规则的分解

C) 把 Prompt 拆成多个子问题

D) 不知道


维度三:安全与 Agent 测试 (5题)

Q11. Prompt 注入攻击的常见手段有哪些?(多选概念)

A) 指令覆盖 + 角色劫持 + 编码绕过 + 间接注入,至少知道 3 种

B) 知道"忽略之前的指令"这类

C) 听说过但说不出具体类型

D) 完全不了解

Q12. 红队测试(Red Teaming)和普通测试的区别?

A) 红队站在攻击者角度系统化寻找漏洞,有攻击向量库+变体生成

B) 红队就是多写点负面测试

C) 红队是性能压测

D) 不了解

Q13. 测试 Agent 的多步推理时,应该验证什么?

A) 每一步的前提→推理→结论的逻辑一致性 + 最终结论可达性

B) 只验证最终结果对不对

C) 看工具调用次数够不够

D) 没思路

Q14. 如何测试 Agent 的工具调用?

A) 验证参数正确性 + 错误处理 + 边界情况 + 调用顺序

B) 确认能调通就行

C) Mock 掉工具不测真实调用

D) 没做过

Q15. 一个越狱(Jailbreak)检测器应该覆盖哪些维度?

A) 直接指令绕过 + 角色扮演 + 编码混淆 + 多轮诱导 + 安全话题伪装

B) 检测到脏词就拦截

C) 人工审核

D) 不清楚


维度四:自动化与工程实践 (5题)

Q16. 什么是 Golden Dataset?在 AI 测试中为什么重要?

A) 版本化的标准测试数据集,模型更新时跑同一组数据对比指标变化

B) 训练模型用的数据集

C) 一组固定的单元测试

D) 没听过

Q17. 快照测试(Snapshot Testing)在 LLM 测试中怎么用?

A) 保存 LLM 输出快照,后续运行对比差异,检测非预期变化

B) 对 UI 做截图对比

C) 保存数据库状态

D) 不了解

Q18. 契约测试(Contract Testing)解决什么问题?

A) 保证 API 接口变更不破坏向后兼容性(Schema + 版本检查)

B) 法律合同条款的测试

C) 微服务间网络通信测试

D) 不确定

Q19. LLM 性能测试要关注哪些指标?

A) TTFT(首token延迟) + TPS(生成速率) + P50/P95/P99 延迟 + token 成本

B) 只看响应时间

C) QPS 和 CPU 使用率

D) 不清楚

Q20. CI 管线中 AI 测试的 fail-fast 策略是什么?

A) 快速失败------发现关键测试失败立即停止,不浪费时间跑后续测试

B) 所有测试失败都忽略

C) 测试失败自动重试 N 次

D) 不了解


维度五:策略与架构 (5题)

Q21. AI 测试金字塔和传统测试金字塔有什么不同?

A) AI 金字塔中间层是 Mock 评估测试,顶层是真实 LLM 调用(更贵更慢)

B) 完全一样

C) AI 不需要金字塔,全部 E2E

D) 不了解

Q22. 以下哪种做法可以提高 AI 测试的可维护性?

A) Fixture 模板 + 参数化生成器 + 数据工厂模式

B) 把所有测试写在一个文件里

C) 硬编码所有测试数据

D) 不确定

Q23. 多模态 AI 测试(图像/音频)的核心挑战是什么?

A) 跨模态一致性验证 + 评估标准难以量化(如图像描述的"准确度")

B) 文件格式处理

C) 就是多写几个断言

D) 没想过

Q24. 如何设计一个跨周测试聚合系统?

A) 统一结果格式 + 退化检测 + 历史趋势对比 + 健康度评分

B) 把所有测试放一个目录跑

C) 写个脚本循环跑 12 个目录

D) 没思路

Q25. 你负责一个 LLM 产品的质量,第一件要做的事是什么?

A) 建立评估基准(指标体系 + Golden Dataset + 自动化管线)

B) 开始写大量单元测试

C) 招更多测试人员

D) 不确定


第二部分:评分与能力画像

计分方法

每题:A=2分 B=1分 C=0.5分 D=0分

每个维度满分 10 分,总分满分 50 分。

能力等级

等级 总分 说明
S 专家 40-50 已具备独立设计 AI 测试体系的能力
A 熟练 30-39 掌握核心方法论,需补充实战经验
B 进阶 20-29 有基础认知,需要系统学习
C 入门 10-19 刚接触,需要从头学起
D 新手 0-9 零基础

维度画像

画出你的五维雷达图:

复制代码
         测试基础(10)
             |
   策略架构(10)---评估度量(10)
             |
  自动化工程(10)---安全Agent(10)

找出最弱的 1-2 个维度,这就是你的学习重点。


第三部分:个性化学习路径

路径 A:零基础入门(总分 0-19 或任意维度 ≤ 3)

目标:8 周建立 AI 测试基本能力

复制代码
Week 1-2: Week01 + Week02(测试基础 + 评估指标)
  - 每天投入 2 小时
  - 重点:理解 AI 测试和传统测试的区别
  - 产出:能写基本 Prompt 测试 + 用 BLEU/ROUGE 评估

Week 3-4: Week03 + Week04(LLM Judge + RAG 测试)
  - 重点:理解"用 LLM 评估 LLM"的思路
  - 产出:能手写简单评估指标 + 测试 RAG 检索质量

Week 5-6: Week05 + Week07(安全测试 + 自动化管线)
  - 跳过 Week06 Agent 测试(太进阶)
  - 重点:注入检测 + CI 流水线
  - 产出:能搭建基本 CI 管线 + 安全测试

Week 7-8: Week11 + Week12(E2E 实战 + 最佳实践)
  - 重点:快照测试 + 契约测试 + 反模式
  - 产出:能独立为 LLM 产品写端到端测试

每日节奏

  • 30 min 读源码理解原理
  • 60 min 动手写测试
  • 30 min 总结笔记

路径 B:有基础加速(总分 20-29)

目标:6 周掌握进阶技能

复制代码
Week 1: Week01 + Week02 快速回顾(1天过完)
  - 只做评估指标部分,确认 BLEU/ROUGE 概念清晰

Week 2: Week03 + Week04(重点周)
  - 深入 LLM-as-a-Judge 7 个指标
  - RAG 分层测试方法论
  - 产出:能设计完整 RAG 测试方案

Week 3: Week05 + Week06(安全 + Agent)
  - 红队测试框架 + 多步推理验证
  - 产出:能给 Agent 产品做安全评估

Week 4: Week07 + Week08(自动化 + 性能)
  - Golden Dataset + 负载测试
  - 产出:能搭建持续评估管线

Week 5: Week09 + Week10(多模态 + 工具链)
  - 按需学习,非必修
  - 如果产品涉及多模态则深入

Week 6: Week11 + Week12(实战整合)
  - E2E 测试 + 反模式审查
  - 产出:完整的 AI 测试方案文档

路径 C:进阶提升(总分 30-39)

目标:4 周查漏补缺 + 实战项目

复制代码
Week 1: 按弱项维度定向补充
  - 评估弱 → 深入 Week03-04
  - 安全弱 → 深入 Week05-06
  - 自动化弱 → 深入 Week07, 10-12
  - 策略弱 → 深入 Week12

Week 2: 实战项目 --- 为一个真实 LLM API 设计测试方案
  - 设计评估指标体系
  - 搭建 CI 管线
  - 写 E2E + 快照 + 契约测试

Week 3: 实战项目 --- Agent 产品测试
  - 红队测试
  - 多步推理验证
  - 工具调用测试

Week 4: 总结输出
  - 写测试策略文档
  - 反模式审查
  - 产出可复用的测试模板

路径 D:专家精进(总分 40-50)

目标:2 周打磨体系 + 分享输出

复制代码
Week 1: 体系化整理
  - 审查现有测试的反模式(Week12 工具)
  - 搭建跨项目聚合仪表盘(Week10)
  - 建立团队级测试规范

Week 2: 分享与布道
  - 内部分享:AI 测试方法论
  - 输出:团队 AI 测试 SOP
  - 开源:测试模板 / 工具封装

第四部分:各维度专项补强指南

测试基础弱(维度一 ≤ 5)

必学 :Week01(全部 5 天)
核心练习

  1. 给一个真实 LLM API 写 10 个测试(不同 temperature)
  2. 实现指数退避重试装饰器
  3. 写一个通过率断言工具

评估度量弱(维度二 ≤ 5)

必学 :Week02 + Week03
核心练习

  1. 手写 BLEU 和中文字符级 ROUGE
  2. 实现 3 个 Judge 指标(相关性/忠实度/偏见)
  3. 给客服场景设计评估方案

安全Agent弱(维度三 ≤ 5)

必学 :Week05 + Week06
核心练习

  1. 写一个注入检测器(覆盖 5 种攻击向量)
  2. 搭建红队测试框架
  3. 给一个 Agent 写多步推理验证测试

自动化工程弱(维度四 ≤ 5)

必学 :Week07 + Week08 + Week11
核心练习

  1. 搭建 Golden Dataset 管线
  2. 实现快照测试 + 契约测试
  3. 设计 CI fail-fast 策略

策略架构弱(维度五 ≤ 5)

必学 :Week10 + Week12
核心练习

  1. 画测试金字塔并标注你的项目现状
  2. 用反模式检测工具审查测试代码
  3. 写一份 AI 测试策略文档

快速自评表(1分钟版)

没时间做 25 题?用这个快速版:

  1. 能解释 AI 测试和传统测试的 3 个区别吗?(Y/N)
  2. 能手写 BLEU 或 ROUGE 计算吗?(Y/N)
  3. 知道 LLM-as-a-Judge 是什么吗?(Y/N)
  4. 能说出 3 种 Prompt 注入攻击类型吗?(Y/N)
  5. 知道 Golden Dataset 是什么吗?(Y/N)
  6. 能解释快照测试和契约测试的区别吗?(Y/N)
  7. 知道 TTFT 和 TPS 是什么吗?(Y/N)
  8. 能画出 AI 测试金字塔吗?(Y/N)
Y 数 等级 推荐路径
0-2 D/C 路径 A
3-4 B 路径 B
5-6 A 路径 C
7-8 S 路径 D

本评估基于 12 周 AI 测试课程(1330+ 测试用例)设计,题目覆盖 Prompt 测试、评估指标、安全测试、Agent 测试、自动化工程、测试策略六大领域。

相关推荐
绛橘色的日落(。・∀・)ノ1 小时前
机器学习 梯度下降
人工智能·机器学习
ting94520001 小时前
动手学深度学习(PyTorch版)深度详解(9):注意力机制
人工智能·pytorch·深度学习
DeeGLMath1 小时前
使用optimtool训练符号神经网络
人工智能·深度学习·神经网络
PaperData1 小时前
2000-2025年《中国县域统计年鉴》pdf+excel版(附赠面板数据)
数据库·人工智能·数据分析·pdf·经管
AI周红伟1 小时前
数字人,视频,图片用不过时
大数据·人工智能·搜索引擎·copilot·openclaw
databook2 小时前
怎么让我的AI编程助手有“记性”
人工智能·ai编程
摘星编程2 小时前
当AI开始学会“使用工具“——从ReAct到MCP,大模型如何获得真正的行动力
前端·人工智能·react.js
花椒技术2 小时前
3个AI维度,揭秘直播平台如何从零搭出主播画像
人工智能·ai编程
格林威2 小时前
工业视觉检测:单样本学习 vs 传统监督学习
人工智能·深度学习·数码相机·学习·计算机视觉·视觉检测·工业相机