AI功能能回答,不代表能上线:写给测试工程师的AI测试入门

AI测试从 0 到 1:开篇总览

随着大模型、AI Agent、智能知识库、自动化生成工具逐渐进入业务系统,测试工作正在发生明显变化。

过去,我们测试一个功能,通常关注的是:

输入是否正确,输出是否符合预期,流程是否稳定。

例如登录、下单、审批、消息发送,这类功能的预期结果相对明确,测试人员可以通过测试用例、接口断言、自动化脚本来验证结果。

但 AI 类产品不同。

同样一个问题,AI 可能每次回答都不完全一样;同样一份文档,不同模型的总结质量可能差异明显;同样一个任务,AI Agent 可能会选择不同的工具、不同的执行路径。

这就带来了一个新的问题:

当结果不是完全确定的时候,测试应该怎么做?

这正是 AI 测试要解决的问题。


一、什么是 AI 测试?

AI 测试不是简单地测试一个聊天窗口,也不是只看模型能不能回答问题。

更准确地说,AI 测试是对 AI 系统的能力、稳定性、准确性、安全性、可控性和业务价值进行验证。

传统测试更关注:

功能是否可用。

AI 测试更关注:

AI 的输出是否可信、是否稳定、是否可控、是否能真正解决业务问题。

例如,一个"AI 总结文档"功能,看起来只是用户上传文档,AI 输出总结。但测试时需要关注的不只是"能不能生成总结",还要看:

测试维度 需要验证的问题
准确性 总结内容是否符合原文
完整性 是否遗漏关键结论、风险、待办
幻觉问题 是否编造文档中不存在的内容
格式遵循 是否按照要求输出标题、要点、结论
多轮能力 继续追问时是否能保持上下文
权限控制 是否会引用无权限文档内容
稳定性 多次生成结果是否差异过大
性能成本 响应时间、Token 消耗是否可接受

所以,AI 测试的核心并不是"让 AI 输出一个答案",而是判断:

这个答案能不能被用户信任,能不能被业务使用,能不能支撑上线。


二、为什么测试工程师需要学习 AI 测试?

AI 功能正在从"辅助工具"变成"业务能力"。

现在很多系统已经开始接入 AI,例如:

场景 AI能力
企业 IM 消息总结、文档总结、智能问答
知识库 文档检索、RAG 问答、引用溯源
OA系统 请假识别、审批建议、流程推荐
测试平台 自动生成测试用例、缺陷分析、报告生成
客服系统 智能回复、工单分类、意图识别
项目管理 风险识别、周报总结、任务拆解

这些功能上线后,如果没有 AI 测试体系,很容易出现以下问题:

  1. AI 看起来能回答,但内容不准确。
  2. AI 输出很像真的,但其实是编造的。
  3. 简单问题表现很好,复杂业务场景效果很差。
  4. 演示环境很好,上线后不稳定。
  5. 没有评估标准,测试只能凭感觉判断好坏。
  6. 没有回归集,Prompt 或模型一变,质量无法验证。

传统测试工程师如果只用原来的方式测试 AI,很容易陷入一个误区:

只验证功能链路是否通了,却没有验证 AI 输出质量是否可靠。

因此,AI 测试会成为测试工程师非常重要的新能力。


三、AI 测试主要测哪些对象?

AI 测试可以分成几个典型方向。

1. 大模型能力测试

这是最基础的一类测试,主要验证模型自身能力。

例如:

能力类型 测试内容
问答能力 是否能正确回答业务问题
总结能力 是否能准确总结文档、聊天记录
推理能力 是否能根据上下文做判断
多轮对话 是否能记住前文并持续理解
格式遵循 是否能按 JSON、表格、Markdown 输出
代码能力 是否能生成可运行代码或脚本
翻译能力 是否准确、自然、符合语境

这类测试的重点不是"模型会不会说话",而是看它在具体任务中的表现是否满足业务要求。

2. Prompt 测试

Prompt 是 AI 应用中非常关键的一部分。

很多时候,AI 输出质量不稳定,并不一定是模型能力不行,而是 Prompt 设计不够清晰、约束不够明确、边界条件不完整。

例如,一个测试用例生成 Prompt:

text 复制代码
你是一个资深测试工程师。
请根据需求文档生成测试用例。
输出字段包括:用例标题、前置条件、测试步骤、预期结果、优先级。

测试时要关注:

测试点 说明
角色是否生效 是否真的以测试工程师视角分析
格式是否稳定 是否每次都输出指定字段
规则是否遵守 是否按业务约束生成
是否乱扩展 是否加入需求中没有的内容
是否抗干扰 用户要求忽略规则时是否仍能守住边界

Prompt 测试是测试工程师入门 AI 测试最适合的切入口。

3. RAG / 知识库测试

RAG 是当前最常见的 AI 应用架构之一。

它的基本流程是:

text 复制代码
用户提问
  ↓
从知识库检索相关内容
  ↓
把检索结果交给大模型
  ↓
生成答案

这类系统的测试不能只看最终回答,还要看整个链路:

环节 测试重点
文档上传 格式、大小、权限、异常文件
文档解析 文本、表格、图片、标题是否解析正确
切片策略 Chunk 是否合理
检索召回 是否能找到正确内容
重排序 正确内容是否排在前面
答案生成 是否基于文档回答
引用溯源 引用是否真实、准确
无答案处理 文档中没有答案时是否拒绝编造
权限隔离 是否会召回无权限文档

RAG 测试的核心问题是:

AI 的答案是否真的来自知识库,而不是模型自己猜的。

4. AI Agent 测试

AI Agent 是更复杂的一类 AI 系统。

普通 AI 聊天主要是"回答问题",而 Agent 是"执行任务"。

例如:

text 复制代码
帮我分析这个需求,生成测试用例,并创建 Jira 任务。

这个任务可能包含多个步骤:

text 复制代码
理解用户意图
  ↓
读取需求文档
  ↓
分析功能点
  ↓
生成测试用例
  ↓
调用 Jira API
  ↓
创建任务
  ↓
返回执行结果

Agent 测试要关注的不只是回答内容,还包括:

测试维度 说明
意图识别 是否理解用户真正想做什么
任务拆解 是否合理规划步骤
工具选择 是否调用正确工具
参数传递 API 参数是否正确
执行顺序 多步骤流程是否正确
异常恢复 工具失败后是否能处理
权限控制 高风险操作是否需要确认
最终结果 是否真正完成任务

AI Agent 测试会更接近"业务流程测试 + 接口测试 + 安全测试 + AI 输出评估"的组合。


四、AI 测试和传统测试有什么不同?

AI 测试并不是完全推翻传统测试,而是在传统测试基础上增加新的质量维度。

对比项 传统测试 AI测试
预期结果 通常明确固定 可能不唯一
判断方式 Pass / Fail 评分 + 分级 + 人工复核
测试重点 功能流程是否正确 输出是否可信可控
缺陷类型 功能异常、接口错误、数据错误 幻觉、遗漏、理解偏差、格式失控
回归方式 自动化断言 测试集 + 评分标准 + 人工抽检
风险重点 功能不可用 看似可用但结果不可信

传统测试更像是在验证:

系统有没有按规则执行。

AI 测试更像是在验证:

系统有没有在不确定性中保持可信。


五、AI 测试的核心指标

AI 测试需要建立自己的质量指标。

常见指标包括:

指标 含义
准确率 回答是否正确
召回率 是否找到了应该找到的信息
幻觉率 是否编造不存在的信息
格式合规率 是否按要求输出
稳定性 多次执行结果是否一致
引用准确率 引用来源是否正确
拒答准确率 无答案或敏感问题是否正确拒答
响应时间 AI 返回结果耗时
Token 消耗 单次调用成本
人工修正率 输出结果需要人工修改的比例

在实际项目中,不一定一开始就建立复杂指标体系。可以先从几个最关键的指标开始:

text 复制代码
准确性
完整性
无幻觉
格式合规
可执行性
响应时间

六、AI 测试的基本流程

一个完整的 AI 测试流程可以这样设计:

text 复制代码
1. 明确AI功能目标
   ↓
2. 梳理业务场景
   ↓
3. 设计测试数据
   ↓
4. 编写Prompt测试用例
   ↓
5. 执行多轮测试
   ↓
6. 对AI输出进行评分
   ↓
7. 记录缺陷和典型样例
   ↓
8. 优化Prompt、模型参数或业务规则
   ↓
9. 建立回归测试集
   ↓
10. 输出AI质量报告

其中最关键的是三件事:

  1. 测试数据集

    用来覆盖不同业务场景、异常场景、边界场景。

  2. 评分标准

    用来避免测试人员只凭主观感觉判断好坏。

  3. 回归集

    用来保证 Prompt、模型、知识库或参数调整后质量不会倒退。


七、测试工程师如何从 0 开始学习 AI 测试?

建议不要一开始就直接研究复杂框架,而是按下面路径逐步进入。

第一阶段:理解基础概念

先掌握以下关键词:

概念 说明
LLM 大语言模型
Prompt 给模型的指令
System Prompt 系统级提示词
Token 模型处理文本的基本单位
Temperature 控制输出随机性
Context Window 上下文窗口
Hallucination 幻觉,模型编造内容
Embedding 文本向量化
Vector DB 向量数据库
RAG 检索增强生成
Agent 能调用工具执行任务的 AI 系统

第二阶段:从 Prompt 测试入手

这是最适合测试工程师的入门方向。

可以先选择一个简单场景:

text 复制代码
输入一段需求,让 AI 生成测试用例。

然后测试:

text 复制代码
是否覆盖主流程
是否覆盖异常场景
是否字段完整
是否步骤可执行
是否编造需求外内容
是否能按表格输出
是否能多轮补充

这个阶段的目标是建立对 AI 输出质量的判断能力。

第三阶段:学习 RAG 测试

当你理解 Prompt 测试后,可以进一步测试知识库问答。

例如:

text 复制代码
上传一份产品需求文档,然后向 AI 提问。

需要验证:

text 复制代码
是否能找到正确章节
是否能基于文档回答
是否能引用来源
文档没有答案时是否不编造
文档更新后答案是否同步
无权限文档是否不会被召回

这个阶段的目标是理解 AI 应用中"检索"和"生成"的关系。

第四阶段:学习 Agent 测试

最后再进入 Agent 测试。

Agent 测试比普通 AI 问答更复杂,因为它涉及工具调用和任务执行。

例如:

text 复制代码
让 AI 自动生成测试用例,并创建任务。

需要测试:

text 复制代码
任务拆解是否合理
工具选择是否正确
API 参数是否正确
执行失败是否有兜底
高风险操作是否需要确认
最终结果是否真实完成

这个阶段的目标是从"测试 AI 输出"升级为"测试 AI 执行链路"。


八、AI 测试最容易踩的坑

在刚开始做 AI 测试时,容易出现几个误区。

1. 只测功能可用,不测输出质量

很多 AI 功能从页面看是正常的:

text 复制代码
可以输入问题
可以返回答案
页面没有报错

但真正的问题可能是:

text 复制代码
答案不准确
内容有遗漏
引用不正确
有幻觉
格式不稳定

AI 测试不能只停留在"链路通了"。

2. 没有标准,只凭感觉判断

如果没有评分标准,不同测试人员对同一个回答可能给出完全不同的结论。

因此至少要定义基础标准:

评分项 分值
准确性 30
完整性 20
相关性 15
格式合规 15
可执行性 10
无幻觉 10

有了标准,AI 测试才可以沉淀、复盘和回归。

3. 只测简单问题,不测复杂业务场景

AI 最容易在简单样例中表现良好。

真正的问题通常出现在:

text 复制代码
长文档
多规则
多角色
多轮对话
权限边界
指令冲突
业务例外情况

所以测试数据不能只准备"标准问题",还要准备复杂和异常数据。

4. 没有回归集

AI 系统经常会调整:

text 复制代码
模型版本
Prompt
知识库内容
切片策略
检索参数
温度参数
工具调用逻辑

任何一个变化都可能影响输出质量。

如果没有回归集,就无法判断:

这次优化到底是变好了,还是引入了新问题。


九、AI 测试的最终目标

AI 测试的目标不是证明 AI 很强,也不是单纯找出 AI 的错误。

它的核心目标是:

建立一套可评估、可复现、可回归、可上线的 AI 质量保障体系。

换句话说,AI 测试要帮助团队回答几个关键问题:

text 复制代码
这个AI功能能不能上线?
它的回答是否可信?
它是否会乱编?
它是否能遵守业务规则?
它是否有权限和安全风险?
它的成本是否可控?
它是否需要人工复核?

只有这些问题有了明确答案,AI 功能才具备真正上线的基础。


十、开篇总结

AI 测试是测试工程师面向未来的重要能力。

它不是传统测试的替代,而是传统测试能力的扩展。

传统测试让我们知道:

系统功能是否正确。

AI 测试让我们进一步判断:

AI 输出是否可信,AI 行为是否可控,AI 能力是否真正产生业务价值。

对于测试工程师来说,最好的入门方式不是一开始就研究复杂理论,而是从一个具体场景开始:

text 复制代码
让 AI 根据需求生成测试用例,然后评估它生成得好不好。

从 Prompt 测试开始,再逐步进入 RAG 测试、Agent 测试、自动化评估和 AI 质量体系建设。

这就是 AI 测试从 0 到 1 的第一步。

相关推荐
Bug 挖掘机5 天前
一篇理清Prompt,Skill,MCP之间的区别
开发语言·软件测试·python·功能测试·测试开发·prompt·ai测试
旦莫5 天前
测试工程师如何用AI生成测试用例?我的提示词模板分享
人工智能·python·测试开发·自动化·测试用例·ai测试
Raina测试5 天前
基于playwright-cli +Skills实现UI自动化测试实战案例2️⃣(附常见问题处理)
软件测试·ai·自动化·测试工程师·ai测试
Raina测试7 天前
基于playwright-cli +Skills实现UI自动化测试实战案例
软件测试·测试工程师·skill·ai测试·ui 自动化测试·ai 赋能测试
Bug 挖掘机8 天前
放弃OpenClaw ?Hermes Agent从0到1部署+接入飞书教程
软件测试·功能测试·软件测试工程师·测试开发·ai·ai测试·openclaw
小赖同学啊23 天前
本地部署 GraphRAG
人工智能·ai测试
twc8291 个月前
QA的AI突围之路
软件测试·人工智能·ai测试
Cherry的跨界思维2 个月前
【AI测试全栈:质量】47、Vue+Prometheus+Grafana实战:打造全方位AI监控面板开发指南
vue.js·人工智能·ci/cd·grafana·prometheus·ai测试·ai全栈
Cherry的跨界思维3 个月前
【AI测试全栈:质量】45、Kubernetes云原生AI服务测试全实战:从容器化到多租户隔离(附Kind集群实操+踩坑指南)
java·人工智能·云原生·容器·kubernetes·ai测试·ai全栈