做AB实验,本质上是在不确定性中寻找确定性。我们无法上帝视角全知全能,只能通过样本去推断总体。既然是推断,就一定存在犯错的概率。
很多工程师跑实验时只盯着"显著"二字,却不知道显著背后的代价是什么,或者明明策略有效却怎么也测不出来。搞清楚以下四类核心概念,是设计一个靠谱实验的底线。
为了让你直观理解,我们先不谈晦涩的统计学术语,直接看这张**"上帝视角 vs 判罚结果"**的真值表。我们将所有概念归纳为四个象限:
| 真实情况 \ 实验结论 | 判定有效 (Reject H0H_0H0) | 判定无效 (Accept H0H_0H0) |
|---|---|---|
| 策略真的无效 (H0H_0H0 True) | 误报 (False Positive) 没效果硬说有 对应:一类错误、假阳性、显著性水平 α\alphaα | 正确拦截 没效果也没通过 对应:置信水平 (1−α1-\alpha1−α) |
| 策略真的有效 (H1H_1H1 True) | 命中 有效果且被抓住了 对应:统计功效 (1−β1-\beta1−β) | 漏报 (False Negative) 有效果没测出来 对应:二类错误 β\betaβ |
接下来,我们将这四个象限拆解,逐一剖析其技术含义与业务影响。
1. 误报风险:一类错误与假阳性
关键词 :第一类错误 (Type I Error)、假阳性 (False Positive)、显著性水平 (Significance Level, α\alphaα)
概念与痛点
这是AB实验中最严厉的红线。
概念 :原假设(H0H_0H0,即策略无效果)是真理,但实验结论却拒绝了原假设,认为策略有效。
痛点:业务上线了"伪需求"。你以为策略提升了点击率,实际上只是流量波动的噪音。这会导致错误的决策导向,甚至全量上线后造成负向收益。
作用
它衡量了我们对"误判"的容忍度。在实验设计前,我们必须划定一条线,规定最多允许有多大概率出现这种"冤假错案"。这条线就是显著性水平 (α\alphaα)。
核心公式
P(Reject H0∣H0 is True)=α P(\text{Reject } H_0 \mid H_0 \text{ is True}) = \alpha P(Reject H0∣H0 is True)=α
- H0H_0H0 is True:真实情况是策略无效(两个版本无差异)。
- Reject H0H_0H0:实验结果显示有显著差异。
- α\alphaα:通常设定为 0.05 (5%)。这意味着,如果做100次无效策略的实验,我们允许其中有5次因为运气好而被误判为有效。
使用要求
- 严谨性 :α\alphaα 必须在实验开始前设定,严禁跑完数据看P值不够再回头调大 α\alphaα。
- 行业标准:互联网行业通常取 0.05,医药或高风险领域可能取 0.01 甚至更低。
容易混淆点
- α\alphaα vs P-value :α\alphaα 是你预设的门槛(比如5%),P-value 是根据数据算出来的实际概率。当 P-value < α\alphaα 时,我们才判定犯一类错误的概率低到可以接受,从而推断显著。
2. 漏报风险:二类错误与假阴性
关键词 :第二类错误 (Type II Error)、假阴性 (False Negative, β\betaβ)
概念与痛点
这是"遗珠之憾"。
概念 :备择假设(H1H_1H1,即策略有效果)是真理,但实验结论却接受了原假设,认为策略无效。
痛点:错杀了好策略。产品经理辛辛苦苦优化的功能明明能带来 1% 的提升,但因为实验设计不当(如流量不够),数据上看不出显著差异,导致好项目被砍掉。
作用
它反映了实验"视力"的盲区。β\betaβ 越小,说明我们漏掉真实效果的可能性越低。
核心公式
P(Accept H0∣H1 is True)=β P(\text{Accept } H_0 \mid H_1 \text{ is True}) = \beta P(Accept H0∣H1 is True)=β
- H1H_1H1 is True:真实情况是策略有效(存在特定幅度的差异,如提升1%)。
- Accept H0H_0H0:实验结果显示无显著差异。
- β\betaβ:通常希望控制在 0.2 (20%) 以内。
使用要求
- 隐蔽性:二类错误往往不如一类错误受重视,但对于创新驱动型业务,频繁的二类错误会导致团队士气低落,认为"做什么都没用"。
3. 正确拦截:置信水平
关键词 :置信水平 (Confidence Level)、1−α1 - \alpha1−α
概念与痛点
这是对"无辜者"的保护能力。
概念 :当策略真的无效时,我们正确地判断它无效的概率。
痛点:如果置信水平低,意味着我们的实验平台在疯狂报警,充斥着噪音,导致真正的洞察被淹没。
作用
它是显著性水平的补数,代表了实验结论的可信度。通常我们说的"95%置信度",指的就是在策略无效时,我们有95%的把握判定它无效,不被噪音干扰。
核心公式
Confidence Level=1−P(Type I Error)=1−α \text{Confidence Level} = 1 - P(\text{Type I Error}) = 1 - \alpha Confidence Level=1−P(Type I Error)=1−α
- 逻辑交互 :α\alphaα 设定为 0.05,则置信水平自然锁定为 0.95。两者是硬币的两面。
容易混淆点
- 置信区间 vs 置信水平:置信水平是一个概率值(如95%),置信区间是一个范围(如 [2.1%, 2.5%])。置信水平越高,为了保证"不犯错",计算出的置信区间通常会越宽。
4. 敏锐度:统计功效
关键词 :统计功效 (Statistical Power)、1−β1 - \beta1−β
概念与痛点
这是实验系统的"分辨率"或"视力"。
概念 :当策略真的有效时,实验能够正确检测出显著差异的概率。
痛点 :这是很多实验跑失败的根本原因------流量不足。如果功效只有 50%,意味着扔硬币决定好策略的生死。
作用
它是计算最小样本量(Minimum Sample Size)的核心输入。如果你想检测出微小的提升(比如 0.1%),就需要极高的"视力",这就要求更大的样本量来支撑高功效。
核心公式
Power=1−P(Type II Error)=1−β \text{Power} = 1 - P(\text{Type II Error}) = 1 - \beta Power=1−P(Type II Error)=1−β
- 逻辑交互:Power 通常设定为 80%。这意味着如果策略真的有提升,我们有八成的把握能把它测出来。
使用要求
- MDE关联 :功效必须结合最小检测效应 (MDE) 一起讨论。不存在抽象的"高功效",只有"在MDE为1%时的功效是80%"。如果真实提升只有0.01%,同等样本量下功效会急剧下降。
总结:四者的博弈与权衡
回到最初的逻辑,这四个概念并非孤立存在,它们在数学上存在着严格的制约关系(跷跷板效应)。
| 概念组合 | 核心含义 | 业务人话 | 典型取值 |
|---|---|---|---|
| α\alphaα (一类错误) | 误判率 | 宁可错杀,不可放过?不,这里是宁可漏过,不可错判。 | 5% |
| 1−α1-\alpha1−α (置信水平) | 可信度 | 我说没效果,那就是真没效果的把握。 | 95% |
| β\betaβ (二类错误) | 漏判率 | 眼瞎漏掉好策略的概率。 | 20% |
| 1−β1-\beta1−β (统计功效) | 敏感度 | 只要有效果,我就能抓住它的能力。 | 80% |
关键博弈逻辑:
- 按下葫芦浮起瓢 :在样本量(流量)固定的情况下,你想降低误报率(α↓\alpha \downarrowα↓),就必须提高判定门槛,这必然导致更难发现真实效果,从而导致漏报率上升(β↑\beta \uparrowβ↑),功效下降(Power ↓\downarrow↓)。
- 唯一的解药 :想要同时降低 α\alphaα 和 β\betaβ(既不误报也不漏报),唯一的办法就是增加样本量 +降低方差。这也是为什么我们在AB实验平台架构中,无限追求流量利用率和分层重叠实验的原因------为了在有限的流量下,榨取更高的统计功效。