目录
[三、AI 用例生成的场景与价值](#三、AI 用例生成的场景与价值)
[(一)四大 AI 生成场景](#(一)四大 AI 生成场景)
[(二)AI 用例生成的价值](#(二)AI 用例生成的价值)
[四、AI 用例生成的落地价值](#四、AI 用例生成的落地价值)
[五、AI 用例技术方案与难点突破](#五、AI 用例技术方案与难点突破)
[(一)AI 用例生成的难点](#(一)AI 用例生成的难点)
[(二)AI 用例检索增强生成(RAG)架构设计](#(二)AI 用例检索增强生成(RAG)架构设计)
[(一)基于 Multi-Agent 的用例生成 - Review](#(一)基于 Multi-Agent 的用例生成 - Review)
[(二)基于游戏 code-diff 的测试用例生成](#(二)基于游戏 code-diff 的测试用例生成)
在软件测试领域,尤其是互娱产品测试中,测试用例的生成与管理一直是影响测试效率和质量的关键环节。随着 AI 技术的飞速发展,其在测试用例生成方面的应用为解决传统测试中的诸多痛点带来了新的可能。本文将围绕 AI 驱动的测试用例生成,深入探讨其在标准化和效率提升方面的实践与突破。
一、测试用例生成的背景与挑战
在互娱产品测试场景中,测试用例的生成面临着诸多复杂问题,这些问题严重制约了测试工作的效率和质量。
首先,测试用例的书写要求和个人习惯存在很大差异。不同的测试人员有着不同的写作风格和侧重点,导致测试用例的格式和内容千差万别,这给用例的理解和复用带来了极大困难。
其次,测试方法和流程不尽相同。各个 QA 团队可能采用不同的测试策略和步骤,缺乏统一的规范,使得测试过程难以协调和管理,影响了测试工作的整体推进。
再者,互娱产品和 QA 团队具有多样性。不同游戏类别(如角色扮演类、竞技类、休闲类等)的测试内容差异性大,测试重点和难点各不相同。同时,不同的 QA 团队在资源配置、技术水平等方面也存在差异,进一步增加了测试用例生成和管理的复杂性。
此外,使用的工具多种多样,这使得测试数据的整合和共享变得困难。不同工具之间的数据格式不兼容,导致测试人员需要花费大量时间进行数据转换和处理,降低了工作效率。
最后,用例资产管理和复用各异。由于缺乏统一的标准和有效的管理手段,大量的测试用例无法得到有效的复用,每次测试都需要重新编写大量用例,造成了人力和时间的极大浪费。
这些问题直接导致了工具和资源种类繁多,新人上手难度大;管理困难,难以提高用例复用效率;制约了测试工作整体和协作效率的提升等后果。因此,建立标准化的测试用例生成体系,提高测试效率成为了亟待解决的问题。
二、用例平台的整体设计方案
为了解决上述问题,构建一个完善的用例平台至关重要。该平台以标准化和提效为核心目标,通过提炼通用任务流程,建立标准化的模板体系,实现测试用例的规范化管理和高效生成。

(一)平台核心组成
- 测试标准化模板管理:平台提供了丰富的标准化测试模板,涵盖了不同类型的测试任务和场景。这些模板明确了测试用例的格式、内容要素和编写规范,为测试人员提供了统一的参考框架。
- 多样化测试任务管理:平台支持多种测试任务的管理,包括常规测试任务、回归测试任务、程序自测任务、可玩性检查任务等。每个周版本的任务都绑定标准化测试模板,确保测试过程的规范性和一致性。
- 全流程跟踪与管理:平台实现了对测试任务进度、缺陷更新和 Bug 管理的全流程跟踪。通过实时监控测试进度,及时发现和解决问题,提高测试工作的效率和质量。同时,各环节统计和工作投入的数据也为测试过程的优化提供了依据。
- 用例模板和小模块库:平台建立了用例模板和小模块库,存储了大量经过实践验证的测试用例模板和可复用的小模块。测试人员可以根据实际需求快速调用这些资源,减少重复劳动,提高用例生成效率。
(二)用例规范化语言设计
用例规范化语言是构建通用化的 AI 用例生成的基础,其设计旨在明确测试用例的各个组成要素,确保测试用例的清晰性和准确性。

- 功能点:明确定义游戏功能模块,如入口、组队、装备购买等。功能点是测试用例的核心,为测试提供了明确的对象和范围。
- 测试点:功能点下具体的测试内容,如界面表现、逻辑流程等。测试点进一步细化了测试的目标,使测试更加有针对性。
- 前置条件:明确操作步骤的限定环境,如活动时间、解锁状态等。前置条件确保了测试在特定的环境下进行,保证了测试结果的有效性。
- 操作步骤:具体的交互操作,如点击、勾选、抽奖等。操作步骤需要详细、准确,便于测试人员执行。
- 预期结果:操作后的期望响应状态与结果。预期结果是判断测试是否通过的依据,必须清晰、可衡量。

为了更好地实现用例的规范化,平台还提供了标准化节点操作栏,支持快捷键操作,方便测试人员快速构建和编辑测试用例。同时,平台会对非规范节点进行提示,帮助测试人员及时纠正不规范的内容,提高用例的标准化率。
三、AI 用例生成的场景与价值
AI 技术的引入为测试用例生成带来了革命性的变化,其在不同场景下的应用展现出了巨大的价值。

(一)四大 AI 生成场景
- 思维链单层流式:响应速度快,能够快速查看思维链分析过程和知识库依据,测试人员可以随时终止并调整策划案或功能点拆分。这种场景适用于需要快速获取初步测试思路和用例框架的情况。
- 托管式用例树:按照功能点或测试点生成全部用例分支树,避免了逐层操作等待,提高了整个用例树的生成效率。适用于需要全面、系统地生成测试用例的场景。
- 按照模版生成全用例:根据已有的成熟用例或者模版用例,通过生成指令快速生成相似用例的整体内容,预期达成率高。这种方式可以充分利用现有的优质用例资源,提高用例生成的效率和质量。
- 批量整体一键补全:批量选择功能点或测试点,可批量并行生成全部补全内容,包括任意分支遗漏的补全,相当于一键操作完成全部用例。适用于需要快速补充和完善大量测试用例的场景。
(二)AI 用例生成的价值
- 效率与资源优化:AI 用例生成能够缩短测试周期,加速版本迭代。通过自动化生成测试用例,减少了人工编写的时间和精力投入,降低了成本,优化了资源配置,提高了团队生产力。
- 质量与覆盖率提升:AI 技术可以基于丰富的知识库和测试经验,生成更全面、更精准的测试用例,提高了测试的覆盖率。同时,减少了执行歧义和偏差,提升了测试质量。
- 一致性与可维护性:标准化的文档和用例便于资产积累,使测试用例具有更好的一致性。在已有用例基础上,AI 可以进行更新补全,提高了用例的迭代可维护性。
四、AI 用例生成的落地价值
AI 驱动的测试用例生成在实际应用中取得了显著的成效,主要体现在用例标准化提升和效率与覆盖率提升两个方面。
(一)用例标准化提升
通过 AI 用例生成平台,累计标准化用例达到 5W+,用例标准化率超过 90%,标准用例复用率在 30% 以上。标准化的用例使得测试工作更加规范、统一,便于团队协作和知识共享,同时也为用例的管理和维护提供了便利。
(二)效率和覆盖率提升
AI 用例使用占比达到 20%~30%,用例编写效率提升 37%~53%,功能或异常覆盖提升约 10%。不同规模的用例节点在人工耗时和 AI 用例耗时上的对比也充分说明了 AI 用例生成的高效性:
|--------------|--------|-----------|------|
| 用例节点规模 | 人工耗时均值 | AI 用例耗时均值 | 效率提升 |
| 100~200 节点 | 71 分钟 | 36 分钟 | 49% |
| 200~400 节点 | 102 分钟 | 48 分钟 | 53% |
| 400~800 节点 | 159 分钟 | 100 分钟 | 37% |
| 800~1500 节点 | 220 分钟 | 131 分钟 | 40% |
从上述数据可以看出,随着用例节点规模的变化,AI 用例生成都能带来显著的效率提升,极大地减轻了测试人员的工作负担。
五、AI 用例技术方案与难点突破
(一)AI 用例生成的难点
- 游戏背景知识:策划案中通常缺少组内通用的游戏概念解释,如果缺少支撑内容,将导致 AI 进行无效推测,影响测试用例的准确性。
- 游戏测试经验:通用模型缺少游戏领域策划案的分析、等价类划分、边界值分析等专业能力,难以生成符合游戏测试特点的高质量用例。
(二)AI 用例检索增强生成(RAG)架构设计
为了克服上述难点,AI 用例生成采用了 RAG 架构设计,主要包括 Input Manager、Prompt Manager 和大模型三个部分。

Input Manager:负责统一管理和融合分散在各处的游戏背景知识,包括知识库建设和检索算法。
- 知识库建设:

-
- BrainMaker:易互娱知识管理平台,支持同步各游戏的云文档、KM 等 wiki 知识,对外暴露检索接口。
-
- 用例库:收集组内所有真实的用例,并对缺失策划案的用例通过大模型进行策划案恢复,形成策划案 - 用例对知识库。
-
- 模板库:存放组内用例模板,模板源自真实测试用例,由 DeepSeek-V3 提炼出通用的测试对象和测试思路,覆盖红点、包体、奖励等常用测试。
- 检索算法:

-
- BrainMaker:向量化模型为 embedding-zh512,query 由策划案和待补全用例组成,检索内积相似度 top5 的参考知识。
-
- 用例库:向量化模型为 Conanembedding-v1,query 由策划案组成,检索内积相似度 top3 的策划案。
-
- 模板库:query 为补全用例,通过字符匹配找到候选模板表,利用模板结构定位到最小复用片段,使用 LLM 筛选 top1 可复用模板片段。
-
- 策划案多路混合检索算法:利用 LLM 智能切分策划案文档,提取关键词;建立策划案片段向量库以及关键词库;混合语义检索和词汇匹配的多路检索;集成两种召回结果,命中率达到 94%+。
-
- 关键词检索的必要性:增强稀有实体的检索效果,解决向量模型在稀有游戏概念上的编码向量坍缩问题;具备编辑距离容错机制,增强检索的鲁棒性,有效应对用户不同编写习惯下的表达差异。
Prompt Manager:结合精心设计的测试方法指引,为业务需求动态生成提示词,精确控制输出内容质量和风格。其功能包括测试方法论(等价类划分、边界值分析、场景分析)的应用、记忆与调用用例节点定义、用例抽象为模板、模板检索与复用等。
- 基于思维链模型的功能点分解:将功能点分解为测试点,明确节点的语表达内容风格,避免编造策划案中不存在的内容,对生成的节点进行排序并标注输入来源。
- 基于非思维链模型测试用例生成:针对不同节点类型(如数值类 - 数值范围、流程分析类、数值类 - 公式验证等)提供相应的划分思路和示例,实现非功能点单层补全。
- 基于用例模板的测试用例生成:融合模板与策划案信息,通过筛选候选模板、利用策划案 review 模板等步骤,实现模板的复用。
- 测试用例总体生成算法:通过调度算法,循环处理待补全节点队列,调用选择节点生成算法,将生成结果拼接到用例树,并将新的待补全节点加入队列,直至达到预期结果节点。
大模型:根据 Prompt Manager 生成的提示词和 Input Manager 提供的知识,生成符合要求的测试用例。
(三)质量效果优化
- 知识源整合:构建 Wiki 知识、模板库多种来源的大一统知识库,避免 AI 用例编写冷启动。
- 策划案信息去噪:智能拆解策划文档,使用检索模型自动定位测试点。
- 专家级提示词:将测试用例编写拆分为多层节点的补全,不同节点类型适配专有提示词,减少模型负担。
- 来源标签与支持:为测试用例节点提供来源标签,供组内回溯。
- 模型结果预筛选:使用预筛选技术,筛选出质量最高的返回结果。
- 测试专项自主学习:从高采纳率或执行的用例中提取测试模板,增加对测试专项的覆盖率。
通过对不同基模型的对比分析,DeepSeek-R1 在采纳率、格式遵循上有优势,DeepSeek-V3 在生成速度、价格上有优势,Claude-3.7-Sonnet 效果略优于 R1 但成本较高,其他模型在不同方面存在一定不足。
(四)生成速度提升
- 多线程多请求:针对深度思考模型耗时不稳定的弱点,多线程同时请求多次,减少至少 6s 等待时间,降低延迟感知。其流程包括初始化阶段、请求与监控阶段、结果选择阶段和结果返回与流式相应,优化后平均耗时从 35s 降至 27s。
- 多模型协同:根据问题难易混合使用深度思考模型和非深度思考模型,提升速度,降低成本,合理分配模型资源。
- 托管式生成:采用 BFS + 多线程并发实现,用例树的不同分支实现异步并行生成,突破 LLM 自回归串行生成的速度瓶颈。其流程包括广度优先搜索、异步生成架构和用例树结构维护。
(五)结构性优化
- 规范用例生成:按照功能点 - 测试点 - 前置条件 - 操作步骤 - 预期结果的层级结构定义指引模型生成,对不同节点动态合成精心设计的提示词。
- 测试方法论支持:针对结构中不同节点进行测试方法支持,如等价类划分支持测试点生成,边界值分析支持前置条件生成。
- 历史用例复用:提取手写用例的测试对象 / 测试思路,通过复用其层级结构,缓解大模型依靠提示词生成的用例结构死板、AI 味重的问题。
六、未来前沿技术和场景探索
(一)基于 Multi-Agent 的用例生成 - Review
多 Agent 系统通过用例编写 - Review 多 Agent 协作,实现用例生成、排版等功能。虽然该系统能达成用例编写、测试点排版、节点归整等基本目标,但也存在一些问题,如系统封装过好导致 task、agent 的设定对生成效果影响大,prompt 难度增加;依赖基模型的能力;耗时较单 agent 增加约 50% 等。
(二)基于游戏 code-diff 的测试用例生成
在日常开发测试中,QA 较难全面评估变更影响面,在设计测试用例时容易忽略模块之间的联动关系。基于游戏 code-diff 的测试用例生成通过从仓库代码建立调用 code map,定位代码 diff 上下游函数,分析影响的功能模块;利用 AI 能力产生基于变更功能模块的风险分析与测试建议(有效率 78.32%);基于测试建议产生 AI 用例,从而提高测试的全面性和准确性。
七、结语
AI 驱动的测试用例生成在标准化和效率提升方面展现出了巨大的潜力,通过构建完善的用例平台、设计规范的用例语言、优化 AI 技术方案等措施,有效解决了传统测试用例生成中的诸多难题。随着前沿技术的不断探索和应用,AI 在测试用例生成领域的作用将更加凸显,为软件测试行业带来更加深远的变革。我们有理由相信,在 AI 技术的助力下,软件测试工作将更加高效、精准,为用户提供更高质量的产品和服务。