性能测试做久了,会发现最费人的往往不是把脚本跑起来,而是把一堆业务描述、监控曲线、日志、数据库现象和历史经验放在一起,判断系统到底卡在哪里。

文章目录
-
- 一、性能测试的难处,不只在工具
- 二、真正卡住团队的,是性能分析
-
- 性能需求经常藏在业务语言里
- 场景设计不是接口排列组合
- 国产化改造里的非功能经验更稀缺
- [AI 应用的性能和非功能经验也在缺位](#AI 应用的性能和非功能经验也在缺位)
- 瓶颈定位要跨层看证据
- 经验很容易停在个人脑子里
- [三、AI-7D-SATS 想接住的,是 7DGroup 这部分经验](#三、AI-7D-SATS 想接住的,是 7DGroup 这部分经验)
- 四、第一阶段先做几件实在的事
-
- [1. 从材料里捞出性能需求](#1. 从材料里捞出性能需求)
- [2. 给场景设计一个行业参照](#2. 给场景设计一个行业参照)
- [3. 减少脚本和报告里的重复搬运](#3. 减少脚本和报告里的重复搬运)
- [4. 把性能分析经验变成团队能力](#4. 把性能分析经验变成团队能力)
- [5. 让容量规划有依据可讲](#5. 让容量规划有依据可讲)
- 五、边界一定要写清楚
- 六、为什么现在值得做
一、性能测试的难处,不只在工具
很多团队刚开始做性能测试时,会先盯着工具:JMeter 线程组怎么配,Locust 脚本怎么写,Grafana 曲线怎么看,Prometheus 指标怎么查。
这些都要会。但真正进到企业项目里,工具只是起点。
一次响应时间抖动,可能是数据库慢 SQL,也可能是连接池耗尽、JVM GC、网关限流、缓存击穿、下游服务超时,甚至是业务模型本身带来的热点数据。一个 TPS 数字背后,往往连着业务峰值、架构约束、环境差异、容量上限和故障影响面。
7DGroup 长期做性能工程、非功能体系、性能分析优化、容量规划管理、测试开发、智能运维和 AI 工程化实践,接触最多的也正是这类问题。客户不是只想知道"压测有没有跑完",而是想知道:
- 当前系统还能撑多久?
- 瓶颈到底在应用、数据库、中间件,还是下游依赖?
- 这次问题会不会在下个峰值再次出现?
- 如果要扩容,扩哪里才有效?
- 这次经验下次能不能别重新摸一遍?
金融、电力、互联网等行业场景里,这些问题会更加具体。
金融系统关心核心交易链路、账务一致性、批量窗口、峰值容量和灾备切换影响;电力系统关心采集链路、调度业务、设备接入规模、数据上送周期和长期稳定运行;互联网系统关心活动峰值、高并发访问、缓存与消息队列、弹性扩缩容和用户体验波动。
这几年还有一个更明显的变化:很多企业核心系统都在经历国产化和信创适配。操作系统、CPU、数据库、中间件、容器平台、监控组件都可能换一遍,原来在 x86、MySQL、传统中间件或既有云平台上的性能经验,不能简单平移到新的技术栈上。功能能跑通,只能说明流程可用;非功能能力有没有退化,容量模型有没有变化,灾备和运维操作有没有新的风险,还需要重新验证。
还有一类问题正在变得更近:AI 应用本身也需要性能和非功能保障。一个看起来只是"问答慢"的问题,背后可能牵着模型调用、RAG 检索、Agent 工作流、工具调用、上下文窗口、供应商限流、成本预算、降级策略、稳定性和可观测性。传统系统的压测经验能帮上忙,但不能完全覆盖这类新链路。
所以我们越来越觉得,性能测试不是"压出一个数",而是要把数字背后的业务含义、瓶颈证据和容量风险讲清楚。

二、真正卡住团队的,是性能分析
写方案、写脚本、整理报告都很花时间,但这些事情大多还能靠模板和熟练度往前推。性能分析不一样。
它吃经验,也吃上下文。
性能需求经常藏在业务语言里
企业需求文档里很少直接列一张"性能需求清单"。更多时候,性能目标藏在业务规则、交易峰值、批量窗口、SLA、用户体验描述和历史故障背景里。
比如"日终批量必须在 2 小时内完成""活动开始后 10 分钟内订单创建不能明显排队""采集数据需要按分钟级上送并入库",这些句子不一定写着 QPS、P99 或资源水位,但都决定了测试目标。
只靠关键词,很容易漏;只靠人工,又很依赖读文档的人有没有做过类似系统。
场景设计不是接口排列组合
很多压测失败,不是脚本写错,而是场景一开始就设计偏了。
场景设计要理解业务流量、关键链路、峰谷分布、数据规模、环境差异、上下游依赖和失败影响范围。金融系统里一条核心交易链路,电力系统里一条采集告警链路,互联网系统里一次大促下单链路,看起来都是接口调用,风险完全不一样。
这些判断很难从一份接口文档里长出来。它需要行业案例、历史项目、架构经验和非功能方法论一起支撑。
国产化改造里的非功能经验更稀缺
国产化和信创适配项目里,非功能测试经常被低估。
很多项目会先把注意力放在功能兼容上:页面能不能打开,接口能不能返回,批量能不能跑完,报表能不能生成。等到压测或试运行阶段,才发现真正麻烦的是另一组问题:
- 原数据库迁移到国产数据库后,SQL 执行计划、锁行为、索引策略和批量写入能力都变了。
- 原中间件替换后,连接池、线程池、序列化、超时重试和消息堆积的表现不一样。
- 原服务器架构切到国产 CPU 或新操作系统后,单核性能、I/O、网络栈、加解密开销都需要重新评估。
- 原来的监控指标、告警阈值和容量基线不一定还能直接沿用。
- 原团队熟悉的是旧技术栈,新的瓶颈特征和调优手段还没有形成稳定经验。
这类项目最怕"功能适配完成"被误当成"系统可以稳定承载"。非功能测试经验不足,会直接影响容量评估、上线窗口、回退方案和生产稳定性。
AI 应用的性能和非功能经验也在缺位
AI 应用落地以后,很多团队会先关注效果:回答准不准,流程能不能跑通,工具调用能不能完成。但真要进入企业场景,性能和非功能问题很快就会冒出来。
一次响应慢,可能不是某个接口慢,而是检索召回、重排、模型推理、上下文拼装、Agent 多轮决策和外部工具调用叠在一起变慢。一次成本异常,可能来自上下文过长、重复检索、无效重试或 Agent 循环。一次稳定性问题,也可能不是服务不可用,而是模型限流、输出不稳定、下游工具超时、降级策略缺失或可观测性不够。
这块经验现在还没有像传统 Web、数据库、中间件那样形成足够多的稳定笔记。很多团队知道怎么测 TPS、P99 和资源水位,却缺少 AI 应用链路的延迟拆解、容量估算、异常退化、成本评估和稳定性验证经验。AI-7D-SATS 后续要解决的,也包括这部分新型性能工程和非功能保障问题:先把问题拆清楚,把证据留住,把可复用经验沉淀下来。
瓶颈定位要跨层看证据
同样是 CPU 95%,资深工程师不会只写"CPU 使用率高"。他会继续追:
- 是用户态计算高,还是内核态、上下文切换异常?
- 是业务代码热点、序列化、加解密开销,还是 GC 频繁?
- 数据库有没有慢 SQL、锁等待、连接池排队或 I/O 抖动?
- 下游依赖有没有把响应时间放大?
- 当前瓶颈会不会影响扩容效率和容量上限?
性能分析难,就难在它不是单点指标解释。它要把监控、日志、链路、配置、代码、数据库、基础设施和业务过程串成一条证据链。
经验很容易停在个人脑子里
每个项目结束后,团队都会说"这次经验下次要用上"。但真到下一次,常见情况还是:
- 报告存在网盘里,找相似案例很慢。
- 复盘文档写了根因,但关键词、指标口径和瓶颈分类不统一。
- 调优过程散在聊天记录、会议纪要、SQL 片段和监控截图里。
- 新人会用工具,却不知道异常指标出现后先看哪里。
经验如果不能被检索、复用和审查,就只能跟着资深工程师走。团队做过很多项目,但下一次遇到类似问题,还是从头找线索。

三、AI-7D-SATS 想接住的,是 7DGroup 这部分经验
我们做 AI-7D-SATS,不是想让 AI 去替人"自动压测"。压测启动、权限判断、生产目标访问、数据库写入、报告发布,这些都必须在受控 Workflow、审批和审计链路里。
我们更想解决的是另一个问题:7DGroup 过去在金融、电力、互联网等行业的项目里沉淀下来的方法论、案例和分析经验,能不能变成性能工程师随手可查、可复用、可追溯的智能工作助手?
这些经验不是只来自项目复盘。7DGroup 还持续输出过《全链路压测实战30讲(落地实操)》《性能测试实战30讲(入门到精通)》《高楼的性能工程实战课(架构级)》等专栏课程体系,也通过公众号和技术博客多年输出几百篇性能工程、安全、压测、分析优化、智能运维相关文章,以及几百到上千次企业内训、公开课、个人培训和咨询辅导,把一线问题反复拆开讲、反复验证。
这里说的专业数据支撑,不是某个单一数据库产品。更准确地说,它是一组知识底座:专家经验、课程体系、文章体系、培训案例、项目复盘、行业案例库、指标知识库、性能分析经验库、容量样本、调优证据、国产化适配记录、AI 应用性能与非功能经验笔记和复盘材料。不同领域、不同技术栈的数据形态、链路模式和瓶颈特征差别很大,系统需要把这些差异保留下来,而不是压成几句泛泛的建议。
7DGroup 的方法论可以给 AI-7D-SATS 提供一条比较稳的骨架。
SATS 非功能体系提醒我们,性能问题往往不只是性能问题。它可能牵动可用性、扩展性、灾备、可靠性、兼容性、安全、可维护性、可操作性和易用性。一个接口慢,不一定只是代码慢,也可能意味着容量风险、灾备窗口风险或运维复杂度上升。
RESAR 性能工程体系则把性能工作拆成更容易治理的阶段:性能需求、性能环境、性能场景、性能分析、性能报告和容量环比。AI-7D-SATS 可以在这些阶段提供草稿和分析线索,但不能替代人做最终判断。
| RESAR 环节 | AI-7D-SATS 适合做的事 | 必须留给人和流程的事 |
|---|---|---|
| 性能需求 | 从 PRD、架构材料、接口文档里整理性能目标和约束 | 确认目标是否完整、优先级是否正确 |
| 性能环境 | 梳理环境差异、依赖关系和风险提示 | 环境准入、目标合法性、资源授权 |
| 性能场景 | 推荐场景矩阵、流量模型和覆盖点 | 关键场景取舍和业务风险确认 |
| 性能分析 | 汇总指标、日志、历史案例,提出根因假设 | 根因结论、调优动作和风险接受 |
| 性能报告 | 生成报告草稿、管理摘要和待确认项 | 对外发布和最终结论确认 |
| 容量环比 | 基于历史压测、业务增长和环境差异给出容量预测候选 | 容量承诺、扩容计划和预算决策 |
性能分析七步法、性能分析决策树和容量预测模型,则更适合放在"分析助手"的核心位置。它们能让系统在看到指标和日志后,不是直接甩出一个结论,而是提示下一步该查什么、哪些证据支持当前假设、哪些反证还没排除、容量预测建立在哪些前提上。
这才是我们认为 AI 值得介入的地方:把经验组织起来,让判断过程更清楚。

四、第一阶段先做几件实在的事
AI-7D-SATS 不需要一上来就覆盖性能测试全流程。第一阶段更应该盯住几个真正耗时间、又能被方法论约束住的环节。
1. 从材料里捞出性能需求
PRD、接口文档、架构说明和会议纪要里,经常散着性能目标、业务峰值、批量窗口和稳定性约束。
系统先把这些内容整理成待确认清单,性能负责人再补充和校正。这样能减少漏项,也能让需求评审更有依据。
2. 给场景设计一个行业参照
面对金融、电力、互联网不同类型的系统,场景设计不能只靠接口列表。系统可以根据典型链路和历史案例,先给出场景矩阵、流量比例、峰值模型和风险覆盖点。
工程师不必从空白页开始,而是从一份带行业参照的草稿开始判断。
国产化适配项目也一样。系统应该能提醒工程师关注数据库迁移后的 SQL 计划变化、国产 CPU 下的单机容量变化、中间件替换后的连接池和线程池表现,以及监控阈值是否需要重建,而不是只检查功能链路是否跑通。
AI 应用项目也一样。第一阶段不必急着承诺完整治理,可以先沉淀性能分析检查清单、指标解释、容量预测候选和非功能风险提示:一次请求慢在哪里,RAG 检索耗时占多少,Agent 多轮决策有没有放大延迟,模型限流和工具超时有没有降级方案,成本和稳定性有没有被纳入容量讨论。
3. 减少脚本和报告里的重复搬运
脚本草稿、参数化模板、断言规则、报告结构、指标摘要,这些工作很多都是格式转换和信息整理。
AI-7D-SATS 可以先生成可编辑草稿。工程师把时间放在校验逻辑、确认风险和分析问题上,而不是反复搬字段、贴截图、补表格。
4. 把性能分析经验变成团队能力
这是我们最看重的一点。
系统需要把行业知识库、专业案例库和性能分析经验库组织起来。一个新问题进来后,能快速找到相似瓶颈、相似指标模式、相似调优路径和相似容量风险。
它不应该给"唯一答案",而应该给带证据、反证、置信度和下一步建议的根因假设。工程师沿着这些线索继续验证,而不是从空白开始。
5. 让容量规划有依据可讲
容量规划不是把当前 TPS 乘一个增长倍数。它要看业务增长、峰值形态、环境差异、资源利用率、瓶颈点、扩容效率和风险缓冲。
AI-7D-SATS 可以基于历史压测、容量环比和业务增长假设,生成容量预测候选,并说明适用范围和限制条件。最后怎么承诺容量、怎么扩容、预算怎么排,仍然要由人和组织流程确认。

五、边界一定要写清楚
AI-7D-SATS 的定位,是性能测试工程师、性能工程师、测试开发、运维/SRE、架构师和技术管理者的工作搭档。
它不是替代品。
确定性治理要交给 Workflow Control Plane。身份认证、权限校验、环境准入、目标校验、风险等级、执行审批、任务状态、压测执行控制、监控采集、审计记录和回滚机制,都要由代码、服务、DispatchGate、RBAC、人工检查点和审计流程控制。
专业判断辅助可以交给 Multi-Agent Intelligence Plane。需求解析、场景设计、脚本草稿、执行评审、指标解读、根因假设、容量预测候选、报告草稿和管理摘要,都可以由 AI 给候选结果,但结果里必须保留证据、置信度、限制条件和待确认项。
最终取舍仍然由人来做。风险是否接受,调优先做哪一项,容量能不能承诺,生产动作能不能执行,报告能不能发布,这些事情需要有人负责。
我们更认同的一句话还是:
Workflow 把门,AI 出活,人拍板。
这句话听起来简单,但它能防住很多走偏的设计。AI-7D-SATS 要做的是把专业经验、行业知识和分析方法放到工程师手边,而不是绕过治理链路替人拍板。

六、为什么现在值得做
7DGroup 一直有一句话:
为技术创建标准,为服务树立标杆,为客户实现价值。
放到性能工程里,这句话不是多写几篇文章、多做几次培训就够了。更关键的是,把方法论、项目案例、工程实践和团队能力建设连起来。
过去性能工程能力主要靠人带人、靠项目磨项目。资深工程师做过金融核心、电力采集平台、互联网高并发活动,就能在复杂问题里更快找到方向;新人即使会工具,也常常不知道怎么把指标、日志、业务和架构串起来。
AI-7D-SATS 想往前推一步:把个人脑子里的判断,沉淀成团队可复用的工程能力。
非功能体系不只停留在文档里,要进入需求识别和风险判断;RESAR 不只停留在流程图里,要进入任务流、报告流和复盘流;性能分析七步法和决策树不只停留在培训材料里,要进入每一次指标解读和根因假设;金融、电力、互联网等行业案例不只停留在历史项目里,要进入可检索、可引用、可审查的专业知识库。
国产化和信创适配里的非功能测试经验也应该被沉淀下来。哪些数据库迁移场景容易出现 SQL 计划波动,哪些中间件替换会改变连接池行为,哪些国产化环境需要重新建立容量基线,这些都不该只留在某一次项目复盘里。
AI 应用的性能和非功能经验也一样。模型调用、RAG 检索、Agent 工作流、工具链路、限流退化、成本水位和可观测性问题,都不该只散在几次试点项目、会议记录或个人笔记里,而应该进入可检索、可引用、可审查的专业知识库。
这就是我们做 AI-7D-SATS 的原因。
不是为了省几小时文档整理时间。那当然有价值,但还不够。
更重要的是,性能分析太难,行业经验太宝贵,团队能力不能一直靠口口相传。AI 不能替性能工程师做最终决策,但它可以帮工程师更快看见问题,更完整地组织证据,更稳定地复用经验,把一次次项目实践变成下一次真正用得上的能力。
如果你也做性能测试、性能工程、测试平台、智能运维或 AI 测试工具建设,可以关注这个系列。我们会继续记录 AI-7D-SATS 从 0 到 1 的过程:方法论怎么落进产品,边界怎么取舍,能力怎么验证,以及哪些事情必须继续由人来拍板。