---关注作者,送A/B实验实战工具包
还记得我们在"SQR 放量框架"中提到的那个黄金时段吗?
当灰度期的风险排除完毕,流量拉升到 50% vs 50%,实验就正式进入了 MPR (Maximum Power Ramp) 阶段。
这是整个实验生命周期中最关键、最烧钱、也是最见真章 的时刻。
在这个阶段,我们不仅要积累足够的样本量来确保统计功效 (Quality),更要通过一系列严密的 SOP (标准作业程序) 来产出最终的实验结论。
如果把做实验比作"开庭审判",灰度期是搜集证据,推全期是执行判决,而 MPR 阶段就是那个决定生死的**"庭审过程"**。
今天我们就来拆解这套庭审 SOP。
1. 入场门槛:什么时候可以开始分析?
很多新手最容易犯的错误是:流量刚切到 50%,第二天一看数据涨了,马上截图发群里报喜。
这是大忌。 任何分析之前,必须先过两道硬门槛:
1.1 时间门槛:周期跑满
要求 :必须跑够预先规划的实验周期(如 7 天或 14 天)。
原因 :为了覆盖完整的周中/周末效应。周一上班摸鱼的用户和周六躺平的用户行为模式完全不同。只看前三天的数据是有偏差的。
1.2 样本门槛:量级达标
要求 :累计样本量必须达到预先计算的最小样本量 。
原因 :在样本量不足时,P 值会剧烈波动(P-hacking 风险)。此时下结论极其容易导致误判。
操作 :在满足这两个条件之前,只做监控,不看结论。
2. 数据准备:去伪存真
拿到数据后,不要急着算 P 值,先做一轮"大扫除"。
2.1 异常值剔除:别让土豪毁了实验
电商 GMV、视频时长等长尾指标,极易受极端值影响。
- 方法一 :百分位截断。比如剔除 TOP 0.1% 的"神豪"用户。
- 方法二 :正态截断。只保留中间 95% 分位的数据。
- 延伸阅读:关于离群值的详细处理,可参考之前的文章《AB实验提升显著性之杀器(四) 离群值处理》。
2.2 灰度数据怎么处理?
这是一个经典难题:MPR 之前那几天的灰度数据(1%、5%...),要不要算进来?
- 情况 A:等比例扩量(推荐)
- 如果灰度阶段 A/B 组比例一直是 1:1(如 1% vs 1%),且没有受到外部干扰。
- 处理 :算进来 。这能增加样本量。但要注意延滞效应(Carryover Effect),如果策略有长尾影响,灰度期的积累可能会让 MPR 初期的数据虚高。
- 情况 B:非等比例 / 不干净
- 如果灰度期动过配置,或者比例乱调过。
- 处理 :剔除。只统计进入 MPR 阶段后的新进组用户。保证数据纯净。
3. 统计品质检测:法庭资格审查
在宣判之前,先要检查法庭(分流系统)本身是否公正。
3.1 SRM 检验 (Sample Ratio Mismatch)
目的 :检查 A 组和 B 组的实际样本量比例,是否等于预设的 50:50。
判罚:
- 如果 SRM 检验不通过(显著差异),说明实验过程中发生了非随机的样本丢失(如实验组有 Bug 导致用户流失)。
- 后果 :立刻停止分析。此时的任何结论都是基于"幸存者偏差"的,毫无意义。
3.2 特征分布检验
目的 :确保 A 组和 B 组的人群画像一致。
方法:
- 分类变量(如性别、城市):卡方检验。
- 连续变量(如历史活跃度):K-S 检验。
- 策略:对于细分维度,显著性水平可以适当放宽(如 0.1),不必过于苛求完美。
4. 核心宣判:显著性评估 SOP
这是最激动人心的时刻。我们按照以下流程图进行判决:

4.1 MDE 的生死判决
当 P 值不显著时,不要急着说"没效果",先看 MDE (最小可检测效应)。
- 情况 A:MDE ≤\le≤ 绝对 Diff
- 说明你的显微镜倍数够了(检测能力充足)。
- 此时 P 值不显著,说明真的没效果(或者效果微乎其微),可以放弃了。
- 情况 B:MDE > 绝对 Diff
- 说明你的显微镜倍数不够(检测能力不足)。
- 此时 P 值不可信。你需要CUPED (降方差)或者延长实验周期(加样本)。
4.2 累计趋势分析
如果实在没法扩量了,MDE 还是不够小,怎么办?
看趋势。画出累积 P 值曲线和累积 Diff 曲线。
- 如果 P 值随着时间推移,一路稳步下降,虽然最后一天是 0.06(大于 0.05),但趋势非常漂亮。
- 结合其他显著的辅助指标,我们可以判定为**"业务显著"**,虽败犹荣。
5. 综合结案:OEC 与下钻
最后,不要只盯着一个 GMV 看,要有全局观。
5.1 下钻分析 (Drill-down)
- 分人群:是不是只对新用户有效?是不是只在 iOS 上有效?
- 归因:梳理清楚逻辑。GMV 涨了,是因为转化率高了,还是客单价高了?
5.2 综合评估 (OEC)
依据之前文章提到的四象限法或 OEC 公式,做最终决策:
- 正向 + 平 →\rightarrow→ 发布。
- 负向 + 平 →\rightarrow→ 不发布。
- 全平 →\rightarrow→ 不发布(若无成本可考虑)。
- 有正有负 →\rightarrow→ OEC 权衡。
总结
MPR 阶段的评估,不是看一眼 P 值就完事的,而是一套严密的证据链闭环:
- 清洗数据:剔除离群值,处理灰度脏数据。
- 验证公正:SRM 和特征分布检验,确保地基稳固。
- 统计推断:结合 P 值、MDE 和趋势图,做多维度的显著性判断。
- 综合决策:利用 OEC 平衡收益与风险。
这一套 SOP,就是数据科学家的"法槌"。
(注:本文中涉及的 SRM、OEC、离群值、CUPED 等概念,在之前的系列文章中均有详细拆解,建议结合阅读以加深理解。)
如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。
