AB实验的统计学内核（三）：一类错误与二类错误的生死结

做AB实验，本质上是在不确定性中寻找确定性。我们无法上帝视角全知全能，只能通过样本去推断总体。既然是推断，就一定存在犯错的概率。

很多工程师跑实验时只盯着"显著"二字，却不知道显著背后的代价是什么，或者明明策略有效却怎么也测不出来。搞清楚以下四类核心概念，是设计一个靠谱实验的底线。

为了让你直观理解，我们先不谈晦涩的统计学术语，直接看这张**"上帝视角 vs 判罚结果"**的真值表。我们将所有概念归纳为四个象限：

真实情况 \ 实验结论	判定有效 (Reject H0H_0H0)	判定无效 (Accept H0H_0H0)
策略真的无效 (H0H_0H0 True)	误报 (False Positive) 没效果硬说有对应：一类错误、假阳性、显著性水平 α\alphaα	正确拦截没效果也没通过对应：置信水平 (1−α1-\alpha1−α)
策略真的有效 (H1H_1H1 True)	命中有效果且被抓住了对应：统计功效 (1−β1-\beta1−β)	漏报 (False Negative) 有效果没测出来对应：二类错误 β\betaβ

接下来，我们将这四个象限拆解，逐一剖析其技术含义与业务影响。

1. 误报风险：一类错误与假阳性

关键词 ：第一类错误 (Type I Error)、假阳性 (False Positive)、显著性水平 (Significance Level, α\alphaα)

概念与痛点

这是AB实验中最严厉的红线。
概念：原假设（H0H_0H0，即策略无效果）是真理，但实验结论却拒绝了原假设，认为策略有效。
痛点：业务上线了"伪需求"。你以为策略提升了点击率，实际上只是流量波动的噪音。这会导致错误的决策导向，甚至全量上线后造成负向收益。

作用

它衡量了我们对"误判"的容忍度。在实验设计前，我们必须划定一条线，规定最多允许有多大概率出现这种"冤假错案"。这条线就是显著性水平 (α\alphaα)。

核心公式

P(Reject H0∣H0 is True)=α P(\text{Reject } H_0 \mid H_0 \text{ is True}) = \alpha P(Reject H0∣H0 is True)=α

H0H_0H0 is True：真实情况是策略无效（两个版本无差异）。
Reject H0H_0H0：实验结果显示有显著差异。
α\alphaα：通常设定为 0.05 (5%)。这意味着，如果做100次无效策略的实验，我们允许其中有5次因为运气好而被误判为有效。

使用要求

严谨性 ：α\alphaα 必须在实验开始前设定，严禁跑完数据看P值不够再回头调大 α\alphaα。
行业标准：互联网行业通常取 0.05，医药或高风险领域可能取 0.01 甚至更低。

容易混淆点

α\alphaα vs P-value ：α\alphaα 是你预设的门槛（比如5%），P-value 是根据数据算出来的实际概率。当 P-value < α\alphaα 时，我们才判定犯一类错误的概率低到可以接受，从而推断显著。

2. 漏报风险：二类错误与假阴性

关键词 ：第二类错误 (Type II Error)、假阴性 (False Negative, β\betaβ)

概念与痛点

这是"遗珠之憾"。
概念：备择假设（H1H_1H1，即策略有效果）是真理，但实验结论却接受了原假设，认为策略无效。
痛点：错杀了好策略。产品经理辛辛苦苦优化的功能明明能带来 1% 的提升，但因为实验设计不当（如流量不够），数据上看不出显著差异，导致好项目被砍掉。

作用

它反映了实验"视力"的盲区。β\betaβ 越小，说明我们漏掉真实效果的可能性越低。

核心公式

P(Accept H0∣H1 is True)=β P(\text{Accept } H_0 \mid H_1 \text{ is True}) = \beta P(Accept H0∣H1 is True)=β

H1H_1H1 is True：真实情况是策略有效（存在特定幅度的差异，如提升1%）。
Accept H0H_0H0：实验结果显示无显著差异。
β\betaβ：通常希望控制在 0.2 (20%) 以内。

使用要求

隐蔽性：二类错误往往不如一类错误受重视，但对于创新驱动型业务，频繁的二类错误会导致团队士气低落，认为"做什么都没用"。

3. 正确拦截：置信水平

关键词 ：置信水平 (Confidence Level)、1−α1 - \alpha1−α

概念与痛点

这是对"无辜者"的保护能力。
概念：当策略真的无效时，我们正确地判断它无效的概率。
痛点：如果置信水平低，意味着我们的实验平台在疯狂报警，充斥着噪音，导致真正的洞察被淹没。

作用

它是显著性水平的补数，代表了实验结论的可信度。通常我们说的"95%置信度"，指的就是在策略无效时，我们有95%的把握判定它无效，不被噪音干扰。

核心公式

Confidence Level=1−P(Type I Error)=1−α \text{Confidence Level} = 1 - P(\text{Type I Error}) = 1 - \alpha Confidence Level=1−P(Type I Error)=1−α

逻辑交互 ：α\alphaα 设定为 0.05，则置信水平自然锁定为 0.95。两者是硬币的两面。

容易混淆点

置信区间 vs 置信水平：置信水平是一个概率值（如95%），置信区间是一个范围（如 [2.1%, 2.5%]）。置信水平越高，为了保证"不犯错"，计算出的置信区间通常会越宽。

4. 敏锐度：统计功效

关键词 ：统计功效 (Statistical Power)、1−β1 - \beta1−β

概念与痛点

这是实验系统的"分辨率"或"视力"。
概念：当策略真的有效时，实验能够正确检测出显著差异的概率。
痛点：这是很多实验跑失败的根本原因------流量不足。如果功效只有 50%，意味着扔硬币决定好策略的生死。

作用

它是计算最小样本量（Minimum Sample Size）的核心输入。如果你想检测出微小的提升（比如 0.1%），就需要极高的"视力"，这就要求更大的样本量来支撑高功效。

核心公式

Power=1−P(Type II Error)=1−β \text{Power} = 1 - P(\text{Type II Error}) = 1 - \beta Power=1−P(Type II Error)=1−β

逻辑交互：Power 通常设定为 80%。这意味着如果策略真的有提升，我们有八成的把握能把它测出来。

使用要求

MDE关联 ：功效必须结合最小检测效应 (MDE) 一起讨论。不存在抽象的"高功效"，只有"在MDE为1%时的功效是80%"。如果真实提升只有0.01%，同等样本量下功效会急剧下降。

总结：四者的博弈与权衡

回到最初的逻辑，这四个概念并非孤立存在，它们在数学上存在着严格的制约关系（跷跷板效应）。

概念组合	核心含义	业务人话	典型取值
α\alphaα (一类错误)	误判率	宁可错杀，不可放过？不，这里是宁可漏过，不可错判。	5%
1−α1-\alpha1−α (置信水平)	可信度	我说没效果，那就是真没效果的把握。	95%
β\betaβ (二类错误)	漏判率	眼瞎漏掉好策略的概率。	20%
1−β1-\beta1−β (统计功效)	敏感度	只要有效果，我就能抓住它的能力。	80%

关键博弈逻辑：

按下葫芦浮起瓢 ：在样本量（流量）固定的情况下，你想降低误报率（α↓\alpha \downarrowα↓），就必须提高判定门槛，这必然导致更难发现真实效果，从而导致漏报率上升（β↑\beta \uparrowβ↑），功效下降（Power ↓\downarrow↓）。
唯一的解药 ：想要同时降低 α\alphaα 和 β\betaβ（既不误报也不漏报），唯一的办法就是增加样本量 +降低方差。这也是为什么我们在AB实验平台架构中，无限追求流量利用率和分层重叠实验的原因------为了在有限的流量下，榨取更高的统计功效。