从需求分析到测试报告：AI自动生成测试用例的完整实践指南

1.AI驱动的测试流程

AI 能够⼴泛地融⼊测试流程的各个环节，我们先回顾测试流程：

各阶段具体内容：

2.AI工具介绍

随着大模型技术的快速发展，AI产品层出不穷。DeepSeek、Kimi、文心一言、纳米AI搜索、问小白等均提供可直接使用的网页版。其中，DeepSeek和文心一言采用了自主研发的核心AI模型。纳米AI搜索和问小白则搭载了由深度求索（DeepSeek）研发的DeepSeek-R1满血版模型。所有用户均可通过各产品的官方网站体验其服务。

ChatGPT：由 OpenAI 开发，作为基于 GPT 架构的对话 AI，广泛应用于聊天、内容创作和问答任务。2025 年继续扩展其功能，吸引了大量用户和开发者。

Claude：由 Anthropic 开发，前 OpenAI 团队成员创立，强调安全性和价值观一致性，目标是提供可靠且友好的 AI 体验。2025 年进一步优化其模型家族。

Grok：由 xAI（马斯克）开发，旨在提供真实、客观的回答，特别适合科学问题和外部视角分析。2025 年扩展了其应用场景和用户访问方式。

DeepSeek：中国初创公司，专注于高效 AI 模型开发，特别是在对话、代码生成和数学推理领域。2025 年在全球 AI 竞争中崭露头角。

综合来看，每个模型都有自己的特色：ChatGPT综合实力强、Claude安全性最高、Grok能获取实时信息、DeepSeek开源且中文优化出色。不同的AI产品，在使用上存在差异，但差异不会过大，学习和工作中可以结合着来使用

3.需求分析

传统的需求分析阶段，测试人员需要反复研读需求文档，标注重点，交叉比对不同版本。特别是遇到模糊表述时，要组织语言去追问产品经理，这个沟通成本很高。

此外，在需求评审会议上，测试人员也需要站在不同角度上考虑需求问题，这对测试人员需求理解能力、业务经验要求非常高，往往经验少的测试人员在需求分析阶段很难提出关键性建议。AI如何帮助测试人员在这一阶段提效呢？

3.1识别需求中存在的问题

针对这一份简易版的需求文档，对于一名新手小白来说，能够理解需求已经很不容易了，但若要求其独立识别潜在缺陷（如逻辑矛盾或规则缺失），则存在显著挑战。此时借助AI的需求分析能力，可系统性地发现隐藏问题。
不满足要求的提示词："找需求的问题"

通过该提示词，我们可以看到AI给出的结果其实并不符合我们的要求，我们希望AI能指出需求中存在的需求问题，而不是需求文档自身的格式、语法表达问题。
该提示词存在明显的三处问题：范围模糊、目标不明确、输出形式未定义，提示词中若存在范围模糊，导致结果可能遗漏关键领域；目标不明确，导致AI的回答并不是我们想要的；输出形式未定义，可能导致AI给出的结果信息杂乱，不成体系，我们无法迅速捕捉到关键信息。

满足要求的提示词："请详细阅读需求，找出其中存在的模糊描述、不完整信息、逻辑冲突、遗漏或任何可能需要澄清的地方，并列出一个问题清单。（列举每一个问题时请标明原文出处或上下文，方便我与产品同事讨论。）"

3.2 需求快速理解与功能概要生成

在实际工作情境中，需求文档的复杂程度远远超出前面所展示的示例。通常情况下，产品经理所编写的需求文档的内容量会远超想象。其篇幅的长短与功能的数量以及功能本身的复杂度存在紧密关联。

当功能繁多且复杂度高时，需求文档自然会内容丰富、篇幅冗长；反之，若功能简洁、复杂度低，文档则相对简短。然而，对于内容繁杂、篇幅较长的需求文档，测试人员往往会陷入困境。面对海量的文档内容，他们需要投入大量的时间进行阅读与理解，这无疑是一项既耗时又具有挑战性的工作。

比特租房是一个比较大的项目，功能丰富，且复杂度高，从需求文档来看，页数多达83页，字数更是逼近万字，需求文档内容如此之多，想要在较短时间内阅读完需求文档基本是不太现实的事情。借助AI是否可以将理解需求文档的工作事半功倍呢？为了降低对需求文档的理解成本，利用AI可以先输入整份需求文档，输出模块化的功能概要和目标摘要。对需求文档有一定了解后再仔细阅读需求文档。

提示词："请作为资深软件测试专家，帮助我分析下面的需求文档，从整体和各个模块的角度，提炼出需求的核心功能、业务目标以及各模块的主要实现内容，并以简洁明了的方式输出概要。"

AI给出的结果截图（不同AI模型给出的结果不完全相同）：

通过AI提取的产品概述和核⼼模块，帮助测试人员快速了解产品整体框架和主要功能。在此基础上，测试人员再去阅读需求文档，可大幅节省时间。

3.3测试计划

测试计划，即在本次的项目中，测试该按照什么样的方式来进行。类似于组织一次大型聚会：你需要确定地点、时间、邀请谁、准备什么食物、安排哪些活动、以及应对突发情况的预案。测试计划在软件测试里，就像这次聚会的"筹备指南"。它用简单的话说，就是把测试工作要做的事都提前计划好，确保测试过程顺利、不遗漏关键环节
使用AI帮我们生成旅游攻略

既然AI可以帮我们⽣成详细的旅游攻略，那么AI在软件测试中，也可以帮助测试⼈员⽣成详细的测试计划，不要忘了告诉AI我们具体要求。

我是⼀名软件测试工程师，现在要对图片上项目需求文档编写测试计划，在2天内完成对全部功能模块的测试，目前只有⼀名测试⼈员，输出:《项目测试计划书》

注意： AI生成的测试计划不一定符合要求，可作为参考。工作中要根据部门测试人员、业务现状进行合理调整。

3.4测试用例

测试人员在进行项目测试之前需要先根据需求编写测试用例，在工作中，我们通常使用万能公式来编写测试用例，"功能测试 + 性能测试 + 界面测试 + 兼容性测试 + 易用性测试 + 安全测试"，而在具体的用例设计中，我们有时候也需要用到具体的编写测试用例的方法，比如等价类、边界值、正交法、判定表法、场景法、错误猜测法等，编写测试用例在测试工作中占据了大量的时间。

测试用例设计的好坏将直接影响项目的测试质量，而测试用例的质量往往跟测试人员的个人积累和经验有关，如何使用AI帮助测试人员设计比较优秀的测试用例呢？

4.1AI生成等价类

"用户的手机号长度为11位"，要求使用方法等价类设计测试用例

4.2AI生成边界值

"用户的手机号长度为11位"，请使用边界值生成测试用例

4.3AI生成正交表

在测试课程中，使用正交表生成测试用例，仅仅借助人手工来设计正交表这是无法实现的，还需要额外借助工具allpairs，但是工具的使用过程非常复杂，且allpairs生成的正交表和实际的正交表有出入，接下来我们看看AI生成的测试用例结果

输入项有"姓名、电子邮箱、密码、确认密码、验证码"，要么填写要么不填写，针对这5个输入项设计测试用例，要求使用正交法

4.4基于具体功能点设计测试⽤例

"用户的手机号为11位"，请针对该功能点设计测试用例，以表格形式汇总输出

给AI发送了一个非常简单的功能点，并借助AI来生成测试用例。从结果来看，AI生成的测试用例比较丰富，覆盖了正向、反向、边界等场景

然而，给出的答案中仍然存在错误的部分，用例并不完整，如非数字（中文、特殊字符、负数等）、手机号输入过长、SQL注入等，看到这里，我们想到了提示词的重要性，是否可以继续优化提示词从而达到，借助AI能完全生成100%正确的测试用例呢？

"用户的手机号为11位"，请针对该功能点设计测试用例，

覆盖 $边界值/异常流/兼容性$ 场景

使用 $等价类划分/正交法$ 设计方法

汇总用例并以表格形式输出

使用AI对功能点一个一个来设计测试用例的效率比较低，是否可以直接将需求文档提供给AI，由AI来提取测试功能点并生成测试用例呢？

4.5 基于需求文档生成测试用例

请针对图⽚中的需求⽂档信息，提供测试功能点，并设计测试⽤例

覆盖维度:功能、易⽤、兼容、安全、性能

2.测试点要覆盖:100%，需求、边界范围、格式、类型、为空等情况测试点根据功能、兼容、安全等分类，每个分类要有：业务、正向、逆向区分以表格形式输出

通过AI生成测试用例，速度要比测试人员自己编写测试用例的速度要快很多。但是从AI生成测试用例的结果来看，结果不一定完全满足测试人员的要求，AI在提取功能点和对功能点设计的测试用例不是很完整，测试人员还需要对AI生成的结果进行验证、修改、增强（补充业务逻辑、边界、负面测试、优化结构），最终实现的测试用例才可以真正应用到项目测试中。

因此，AI可以在一定程度上可以提高测试人员的工作效率，但不能替代测试人员来完成测试用例设计的工作。

将AI视为测试人员的"智能实习生"或"超级加速器"，而非替代者。它擅长处理模式识别、枚举和生成初稿，极大地提升效率，特别是在覆盖基础场景方面。然而，测试人员的核心价值在于其深刻的业务理解、批判性思维、创造性、风险评估能力和对"测试意图"的精准把握。这些是确保测试有效性的关键，也是AI目前无法复制的

3.5测试报告

测试报告在业界并没有一个统一的模板，入职企业后根据业务组的要求编写测试报告即可，测试报告不仅要体现本次的测试数据、测试质量、测试结果，还需要有规范的格式，所以测试报告的编写也是一个耗时的工作，接下来我们看看如何利用 AI 来协助生成测试报告。

要生成测试报告，需要提供基础的数据，如用例的执行情况、bug 的情况

举个栗子：

本次测试项目编写了 85 个测试用例，其他通过的测试用例有 72 个，执行失败的用例有 13 个。

缺陷的数量有 20 个，其中已经关闭的有 19 个，推迟修复的 bug 有 1 个，需要按照优先级提供缺陷列表有了这些数据后，我们就可以整理提示词，使用 AI 来生成测试报告。

注意，AI 对话中除了可以上传图片外，还可以上传文件，AI 能够快速阅读文件内容。这里的测试报告我们希望按照规定的模板来生成。

5.1提示词

复制代码

@测试报告模板
请基于以下测试数据和测试报告模板⽣成⼀份测试报告：
数据源：
[
    测试⽤例总数：85
    通过⽤例：72
    失败⽤例：13
    缺陷个数：20个
    关闭缺陷：19个
    推迟修缺陷：1个
    缺陷列表：
    输⼊正确的账号和密码，点击登录，登录失败，严重，已修复
    ⽤⼾登录失败，验证码未刷新，⼀般，已修复
    点击分享，分享链接错误，⼀般，已修复
    下拉列表未提供输⼊框，对⽤⼾使⽤不友好，次要，推迟修复
]

5.2生成结果

3.6提示词教程

使用正确的提示词，工作效率能直接翻倍！

正确使用提示词，无非就是在与AI对话过程中，详细描述清楚我们具体的需求。然后，并不是所有人都能说清楚自己的要求，以下提供了常见的AI提示词框架，仅供参考。

3.6.1 ICIO框架

I --- Instruction（指令）：明确告知 AI 需要执行的任务或回答的问题。

C --- Context（背景）：提供与任务相关的背景信息或上下文，以帮助 AI 理解情境。

I --- Input（输入）：列出 AI 执行任务所需的具体数据或信息。

O --- Output（输出）：指定期望的结果格式或输出方式。

3.6.1.1 示例1

复制代码

请撰写⼀篇约 800 字的⽂章，讨论⼈⼯智能在教育领域的应⽤。
背景信息：⼈⼯智能正在被⼴泛应⽤于个性化学习、⾃动评分和教育数据分析等⽅⾯。
输⼊：相关的研究数据和案例。
输出：⼀篇结构清晰、语⾔流畅的⽂章，适合教育⾏业的专业⼈⼠阅读

3.6.1.2 示例2

在软件测试中使用ICIO框架

复制代码

请为电商系统⽀付模块⽣成⼀份完整的测试⽤例表，包括功能测试、边界测试和异常场景测试。
背景信息：系统⽀持多种⽀付⽅式（⽀付宝、微信⽀付、信⽤卡），⽀付⾦额必须⼤于0且⼩于等于
100,000元。⽀付失败超过3次，⽤⼾需要重新验证⾝份。
输⼊：包括测试⽤⼾信息（⽤⼾名、账号状态）、订单信息（⾦额、订单状态）、⽀付⽅式（⽀付宝、
微信⽀付、信⽤卡）、交易次数等。
输出：以表格形式展⽰，每条⽤例包含：测试编号、测试步骤、预期结果、优先级。⽣成⾄少15条测试
⽤例，覆盖所有常⻅场景

3.6.2 CRISPE 框架

介绍

CRISPE 是一个首字母缩略词，代表六个创建提示词的关键组成部分：

C --- 能力与角色（Capacity & Role）：定义 AI应扮演的角色或身份
R --- 请求（Request）：清楚地说明希望 AI 执行的任务或回答的问题
I --- 信息（Information）：提供相关背景或上下文信息以辅助生成回答
S --- 风格（Style）：指定输出内容的语气或风格
P --- 参数（Parameters）：为生成内容设置限制或指导
E --- 示例（Examples，可选）：提供示例输出，展示期望的格式和质量。

通过包含这些元素，CRISPE 框架能够确保提⽰词清晰、结构化且策略明确，从⽽获得更精确、更可操作的 AI 输出结果。

示例1

复制代码

⻆⾊：你是⼀位资深营销策略师。
请求：请撰写⼀篇 500 字的可持续时尚趋势博客⽂章
信息：⽬标受众为关注环保的千禧⼀代。
⻛格：使⽤对话式且引⼈⼊胜的语⽓
参数：并⾄少包含三条⾏业统计数据。

示例2
该框架在软件测试中的应用示例

复制代码

⻆⾊：你是⼀名资深软件测试⼯程师，擅⻓编写功能测试、边界测试和异常测试⽤例。
请求：请为电商系统的登录模块⽣成⼀份测试⽤例表。
信息：⽤⼾名和密码为必填项；⽀持邮箱或⼿机号登录；密码⻓度6-16位；错误登录超过5次账号锁定1
⼩时。
⻛格：请以表格形式输出，每条⽤例包含：测试编号、测试步骤、预期结果、优先级。
参数：⽣成不少于10条测试⽤例，涵盖功能测试、边界值测试和异常场景。
⽰例：例如：TC001，输⼊正确⽤⼾名和密码，点击登录，成功登录系统，⾼优先级。

随着AI大模型的发展，角色或身份已经不是非常关键的提示信息了。

框架存在的意义是提出了提示词的关键点，引导我们完整说出自己的需求，框架不是固定的模型，框架中的关键点信息可以混用，只要能完整说出自己的需求即可。掌握框架的使用，无需死记硬背。