我们现在从"自由度 "的角度,深入解释为什么样本方差要除以 (n−1)( n - 1 )(n−1) 才能成为无偏估计(unbiased estimator) ,而不是 (n)( n )(n)。
🧠 目标:用样本估计总体方差
总体方差定义为:
σ2=1N∑i=1N(xi−μ)2 \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2
但通常我们没有总体所有数据,只能从样本 (x1,x2,...,xn)( x_1, x_2, ..., x_n )(x1,x2,...,xn) 来估计。
❓ 为什么不能直接用样本方差(除以(n))(除以 ( n ))(除以(n))?
样本方差常见两种版本:
-
偏差估计(biased)(biased)(biased) :
s2=1n∑i=1n(xi−xˉ)2 s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n1i=1∑n(xi−xˉ)2它是偏小 的估计,平均来说小于真实的(σ2)( \sigma^2 )(σ2)。
-
无偏估计(unbiased)(unbiased)(unbiased) :
s2=1n−1∑i=1n(xi−xˉ)2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2它才是我们想要的估计。
我们接下来解释------为什么用 (n−1)( n-1 )(n−1) 是合理的修正 ,而这背后就涉及到自由度的核心概念。
🔍 从自由度看问题:估计过程中"用了一个自由度"
🚩 关键点:
在计算样本方差时,我们并不知道真实的总体均值 (μ)( \mu )(μ),所以我们用样本均值 (xˉ)( \bar{x} )(xˉ) 来代替。
🧩 这有什么影响?
当我们用样本均值 (xˉ)( \bar{x} )(xˉ) 时,样本数据之间就不再是完全独立的了。
举个例子:
假设你有 (n=3)( n = 3 )(n=3) 个数据点:
- (x1=2)( x_1 = 2 )(x1=2)
- (x2=4)( x_2 = 4 )(x2=4)
- (x3=?)( x_3 = ? )(x3=?)
- 样本均值为 (xˉ=5)( \bar{x} = 5 )(xˉ=5)
你能不能知道 (x3)( x_3 )(x3) 是多少?可以:
xˉ=x1+x2+x33⇒x3=3⋅5−(2+4)=15−6=9 \bar{x} = \frac{x_1 + x_2 + x_3}{3} \Rightarrow x_3 = 3 \cdot 5 - (2 + 4) = 15 - 6 = 9 xˉ=3x1+x2+x3⇒x3=3⋅5−(2+4)=15−6=9
这说明了什么?
一旦你知道了样本均值和其中 (n−1)( n - 1 )(n−1) 个样本数据,第 (n)( n )(n) 个数据就被固定了。
这就是自由度减 1 的核心原因:
- 你本来有 (n)( n )(n) 个"可以自由变动"的数;
- 但在计算样本均值 (xˉ)( \bar{x} )(xˉ) 时,数据被一个约束条件绑住了;
- 所以只有 (n−1)( n - 1 )(n−1) 个数据是真正"自由的";
📉 自由度减少如何影响方差估计?
假设你错误地除以 (n)( n )(n)(不考虑自由度减少):
- 你用 (xˉ)( \bar{x} )(xˉ) 替代了真实的 (μ)( \mu )(μ),
- 由于 (xˉ)( \bar{x} )(xˉ) 是靠数据算出来的 ,它更贴近数据本身,比 (μ)( \mu )(μ) 更靠近数据中点;
- 所以你计算的偏差 ((xi−xˉ)2)( (x_i - \bar{x})^2 )((xi−xˉ)2)会比 ((xi−μ)2)( (x_i - \mu)^2 )((xi−μ)2)系统性地小一点;
- 结果是:你会低估 方差(低估整体波动)(低估整体波动)(低估整体波动)。
所以,为了补偿这个"人为缩小"的误差,必须放大一下结果 ,也就是除以 (n−1)( n - 1 )(n−1) 而不是 (n)( n )(n)。
这就是所谓的:
样本方差的无偏估计需要除以自由度 (n−1)( n - 1 )(n−1)
📚 数学上支持这一点的公式
我们可以证明:
E[1n∑(xi−xˉ)2]=(n−1n)σ2 \mathbb{E}\left[\frac{1}{n} \sum (x_i - \bar{x})^2 \right] = \left(\frac{n-1}{n}\right) \sigma^2 E[n1∑(xi−xˉ)2]=(nn−1)σ2
即:用 (n)( n )(n) 除的话,期望会比真实的 (σ2)( \sigma^2 )(σ2) 小。
而改成除以 (n−1)( n - 1 )(n−1):
E[1n−1∑(xi−xˉ)2]=σ2 \mathbb{E}\left[\frac{1}{n-1} \sum (x_i - \bar{x})^2 \right] = \sigma^2 E[n−11∑(xi−xˉ)2]=σ2
这样才是无偏估计。
✅ 总结:为什么要除以 (n−1)( n - 1 )(n−1)(自由度角度)
维度 | 解释 |
---|---|
自由度 | 样本均值占用了 1 个自由度,剩下 (n−1)( n - 1 )(n−1) 个数据才能自由变化 |
方差的低估 | 使用 (xˉ)( \bar{x} )(xˉ) 作为均值会系统性低估数据的真实波动 |
修正手段 | 除以(n−1)( n - 1 )(n−1) 来"放大"估计值,使其平均值等于真实方差(无偏) |
统计学意义 | 保证估计值在多次抽样中平均不会偏离真实值 |