AB实验的统计学内核(一):容易混淆的各种“误差”

做 AB 实验分析时,最劝退新人的往往不是复杂的算法,而是那一堆长得像孪生兄弟的基础名词:方差、标准差、标准误差、均方误差......

这几个词在公式里看着都差不多,但在实际业务中,有的用来描述用户 ,有的用来描述实验 ,有的用来描述模型。搞混了它们,你的置信区间算不对,显著性结论也是错的。

本文把这些最基础、最容易混淆的统计学概念拎出来,做一个彻底的区分。


1. 方差 (Variance)

定义:

描述数据分布的离散程度。它衡量的是每一个数据点,距离整体平均值的"距离"的平方和的平均值。

数学公式:
σ2=∑(Xi−μ)2N \sigma^2 = \frac{\sum (X_i - \mu)^2}{N} σ2=N∑(Xi−μ)2

通俗理解:

方差是**"波动的平方"**。

想象你在打靶。如果你的弹孔密密麻麻挤在 10 环周围,方差就很小。如果弹孔散布在整个靶子上,方差就很大。
注意:因为是平方值,单位变了。如果数据是"元",方差的单位是"元的平方"。这在物理意义上很难解释,所以我们通常更喜欢用标准差。

AB实验用途:

它是所有计算的基石。在计算 T 检验的分母时,第一步永远是先算出两组数据的方差。

深刻解读:
为什么要用"平方和",而不是直接用"残差和"?

如果你直接计算 (Xi−μ)(X_i - \mu)(Xi−μ) 的总和,正向偏差(比均值大)和负向偏差(比均值小)会互相抵消,结果永远是 0。这无法反映离散程度。
为什么要用"平方"而不是"绝对值"?

虽然绝对值也能防止抵消,但平方函数是光滑可导的,这在数学推导(如最小二乘法、求极值)上比绝对值方便得多。此外,平方会放大离群值的影响,让模型对极端误差更敏感。


2. 标准差 (Standard Deviation, SD)

定义:

方差的算术平方根。

数学公式:
σ=Variance \sigma = \sqrt{\text{Variance}} σ=Variance

通俗理解:

标准差就是**"平均波动幅度"**。

它的单位和原始数据一致。如果用户人均消费是 100 元,标准差是 20 元,意味着大部分用户的消费在 80 到 120 元之间。

AB实验用途:

主要用于数据探索 (EDA)

在实验开始前,我们会看一眼数据的标准差,判断这群用户的行为是不是太离散了。如果标准差极大(比如长尾分布),可能需要先做截断(Capping)处理,否则实验很难显著。

深刻解读:
Z 分数 (Z-score) 的原始含义

Z 分数原本是用来衡量**"一个个体"**有多特立独行的。

公式:Z=X−μσZ = \frac{X - \mu}{\sigma}Z=σX−μ (除以标准差)

  • 如果 Z = 1.96,说明这个用户处于 Top 2.5% 的极端位置。
  • 在正态分布中,均值 ± 1.96个标准差 的范围,覆盖了 95% 的用户个体数据
  • 注意: 这描述的是数据的分布范围,而不是实验结果的可信范围。

3. 标准误差 (Standard Error, SE)

也被简称为标准误,这是最容易和标准差搞混的概念,也是 AB 实验的核心。

定义:
样本均值 的抽样分布的标准差。

它衡量的不是"数据"有多散,而是**"如果你重复做实验,算出来的均值"**有多散。

数学公式:
SE=σn SE = \frac{\sigma}{\sqrt{n}} SE=n σ

(标准差除以根号样本量)

通俗理解:

标准差描述的是个体的差异 (小明和小王的差距)。

标准误差描述的是实验的精度 (这次实验算出的均值,和上帝视角的真实均值之间的差距)。

标准误差,就是样本均值的标准差。

  • 样本量 nnn 越大,分母越大,SE 就越小。这意味着实验做得越准,测出的均值越可信。

AB实验用途:
计算置信区间和 P 值。

我们常说的"95% 置信区间",就是 均值 ± 1.96 * SE

判断实验显不显著,靠的不是标准差,而是标准误差。

深刻解读:
它来自中心极限定理 (CLT)

中心极限定理告诉我们:不管原始数据长什么样,只要不断抽样算均值,这些**"均值"**组成的分布一定会趋向于正态分布。

而这个"均值分布"的宽度,就是标准误差。

为什么假设检验里用的是 SE而不是标准差(STD)?

在假设检验中,我们计算的 Z 统计量,公式变成了:
Z=Xˉ−μSEZ = \frac{\bar{X} - \mu}{SE}Z=SEXˉ−μ (除以标准误差)

  • 这里的 Z,衡量的是**"这次实验的均值"有多特立独行。标准误差,就是样本均值**的标准差。
  • 所以,我们常说的 95% 置信区间 ,公式是 均值 ± 1.96 * SE
  • 关键区别: 标准差 (SD) 决定了用户 长什么样;标准误差 (SE) 决定了实验结论准不准。

4. 综合方差 (Pooled Variance)

定义:

当我们要比较两个组(实验组 B 和对照组 A)时,需要把两组的方差"拼"在一起,估算一个整体的波动水平。

数学公式:
Sp2=(nA−1)SA2+(nB−1)SB2nA+nB−2 S_p^2 = \frac{(n_A-1)S_A^2 + (n_B-1)S_B^2}{n_A + n_B - 2} Sp2=nA+nB−2(nA−1)SA2+(nB−1)SB2

通俗理解:

这就是一个加权平均

A 组有 A 组的波动,B 组有 B 组的波动。为了做 T 检验,我们需要一个统一的标尺。综合方差就是把两组的波动按样本量加权平均,算出一个"公用"的方差。

AB实验用途:

  1. 用于 T 检验 (Student's t-test) 的分母计算。
  2. 用于 最小样本量 (Sample Size Calculation) 的估算(Power Analysis)。在实验开始前,我们需要预估一个总体方差来决定跑多少流量,这时候用的就是综合方差。

深刻解读:
什么时候加权?什么时候直接相加?

  • 综合方差 (Pooled Variance): 假设两组数据的总体方差是相等的(Homoscedasticity),我们只是为了算得更准,才把它们拼起来加权。这是教科书里标准 T 检验的做法。
  • Welch's T-test(工业界更常用): 在现实业务中,实验组和对照组的方差往往明显不等 (比如实验组上了个激进策略,导致用户行为两极分化,方差变大)。此时如果强行加权,P 值会算错。
    所以,工业界 AB 实验工具(如 Python 的 ttest_ind(equal_var=False))通常默认使用 Welch 公式 。它不计算综合方差,而是直接把两组的标准误平方相加:
    SEΔ=SA2nA+SB2nB SE_{\Delta} = \sqrt{\frac{S_A^2}{n_A} + \frac{S_B^2}{n_B}} SEΔ=nASA2+nBSB2
    呐,就是这个公式。 它是计算 T 分数分母最稳健的方法,不管两组方差是否相等,用它都没毛病。 不过注意看:
    • 分子 S2S^2S2 内部已经除过 n−1n-1n−1 了。
    • 外面的分母 nnn 是来自于"均值抽样分布"的中心极限定理(样本量越大,均值越稳)。这个 nnn 代表的是样本数量的缩放效应,不需要减 1。

5. 均方误差 (Mean Squared Error, MSE)

定义:

预测值与真实值之差的平方的期望值。

数学公式:
MSE=1n∑(Yi−Y^i)2 MSE = \frac{1}{n} \sum (Y_i - \hat{Y}_i)^2 MSE=n1∑(Yi−Y^i)2

通俗理解:

这是预测模型 的考卷分数。

如果说方差是描述数据自己乱不乱,MSE 就是描述你猜得准不准

如果你的预测模型(比如 CUPED 里的回归模型)完美预测了每一个点,MSE 就是 0。

AB实验用途:

主要出现在 CUPED (方差缩减)回归分析 中。

CUPED 的核心目标,就是通过引入历史数据,让修正后指标的 MSE(或者说残差的方差)变得最小。

深刻解读:
MSE vs 方差

看公式,MSE 和方差长得非常像,都是"差值的平方和除以 N"。

  • 方差 减去的是均值 (μ\muμ),它衡量的是数据自身的离散度。
  • MSE 减去的是预测值 (Y^\hat{Y}Y^),它衡量的是模型拟合的好坏。
    在 AB 实验中,MSE 更多出现在偏机器学习相关性分析的场景下(如 CUPED 回归、因果推断模型),用来评估我们引入协变量后,到底消除了多少噪音。

6. 总体方差 VS 样本方差

这是统计推断中最基础但也最容易被忽视的区别。

定义区别:

  • 总体方差 (σ2\sigma^2σ2): 上帝视角。假设你能获取全人类的数据,算出来的那个方差。
  • 样本方差 (S2S^2S2): 凡人视角。你只抓取了 10 万个用户(样本),算出来的这群人的方差。

AB实验中的现实:

在做 AB 实验时,我们想推断的是"总体"(所有潜在用户)的反应。但我们永远无法知道"总体"的真实方差。

我们手里有的,永远只有"样本方差"。

所以,我们在做假设检验(T-test)时,实际上是用样本方差代替/估计总体方差。

深刻解读:
为什么样本方差分母是 N-1?(无偏估计与自由度)

当你用样本均值去估算总体均值时,你已经用掉了一个信息量(自由度)。

如果你计算样本方差时分母还用 NNN,算出来的结果会比真实总体方差偏小 (有偏估计)。

为了纠正这个偏差,统计学家把分母改成了 N−1N-1N−1。这被称为贝塞尔校正 (Bessel's Correction)

这就好比你用一把尺子去量东西,因为尺子本身可能有误差,所以我们故意把读数放大一点点,以确保不会低估真实的波动。


总结:一张表看懂

名词 符号 核心含义 谁变大它变小? 典型场景
方差 σ2\sigma^2σ2 数据的波动(平方级) 数据越集中 中间计算过程
标准差 σ\sigmaσ 数据的波动(原始量级) 数据越集中 看用户画像分布
标准误差 SESESE 均值的测算精度 样本量 nnn 越大 算 P 值、置信区间
综合方差 Sp2S_p^2Sp2 两组数据的加权波动 / T 检验公式分母、算最小样本量
均方误差 MSEMSEMSE 预测准不准 模型越好 CUPED、回归分析

避坑指南:

  • 老板问"用户差异大不大",看标准差
  • 老板问"实验结果准不准"、"显不显著",看标准误差
  • 做 CUPED 降噪时,关注 MSE
  • 公式里分母是 N−1N-1N−1 时,说明我们在用样本 估算总体

搞清楚这几个"差",AB 实验的统计学门槛你就跨过去了一半。

相关推荐
木非哲3 小时前
AB实验的统计学内核(三):一类错误与二类错误的生死结
概率论·abtest
木非哲5 小时前
AB实验的统计学内核(二):从P值、置信区间到T检验的工业级解构
概率论·abtest
星火开发设计1 天前
从公式到应用:卷积公式全面解析与实战指南
学习·算法·机器学习·概率论·知识·期末考试·卷积公式
张祥6422889043 天前
误差理论与测量平差基础笔记三
概率论
张祥6422889043 天前
误差理论与测量平差基础四
人工智能·机器学习·概率论
万行4 天前
机器学习&第三章
人工智能·python·机器学习·数学建模·概率论
AI科技星4 天前
光速飞行器动力学方程的第一性原理推导、验证与范式革命
数据结构·人工智能·线性代数·算法·机器学习·概率论
Niuguangshuo6 天前
EM算法详解:解密“鸡生蛋“的机器学习困局
算法·机器学习·概率论
sunfove6 天前
贝叶斯模型 (Bayesian Model) 的直觉与硬核原理
人工智能·机器学习·概率论