🧠 一、背景设定
设 (X1,X2,...,Xn)( X_1, X_2, \dots, X_n )(X1,X2,...,Xn) 是从总体中独立随机抽取的 ( n ) 个样本,满足:
- 每个 (Xi∼i.i.d.)( X_i \sim \text{i.i.d.} )(Xi∼i.i.d.)
- (EXi=μ)( \mathbb{E}X_i = \mu )(EXi=μ),总体均值
- (Var(Xi)=σ2)( \text{Var}(X_i) = \sigma^2 )(Var(Xi)=σ2),总体方差
定义:
-
样本均值:
Xˉ=1n∑i=1nXi \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i Xˉ=n1i=1∑nXi -
样本方差的无偏估计:
S2=1n−1∑i=1n(Xi−Xˉ)2 S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2
我们想要证明:
ES2=σ2 \mathbb{E}S\^2 = \sigma^2 ES2=σ2
🧮 二、推导过程
我们从样本方差的定义入手:
S2=1n−1∑i=1n(Xi−Xˉ)2 S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2
我们要计算:
ES2=1n−1E∑i=1n(Xi−Xˉ)2 \mathbb{E}S\^2 = \frac{1}{n-1} \mathbb{E} \left \\sum_{i=1}\^n (X_i - \\bar{X})\^2 \\right ES2=n−11Ei=1∑n(Xi−Xˉ)2
也就是说,我们只需要证明:
E∑i=1n(Xi−Xˉ)2=(n−1)σ2 \mathbb{E} \left \\sum_{i=1}\^n (X_i - \\bar{X})\^2 \\right = (n - 1)\sigma^2 Ei=1∑n(Xi−Xˉ)2=(n−1)σ2
✂️ 步骤 1:展开偏差平方和
∑i=1n(Xi−Xˉ)2=∑i=1nXi2−nXˉ2 \sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n\bar{X}^2 i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2
推导如下:
∑i=1n(Xi−Xˉ)2=∑Xi2−2Xˉ∑Xi+nXˉ2=∑Xi2−2nXˉ2+nXˉ2=∑Xi2−nXˉ2 \sum_{i=1}^n (X_i - \bar{X})^2 = \sum X_i^2 - 2\bar{X} \sum X_i + n\bar{X}^2 = \sum X_i^2 - 2n\bar{X}^2 + n\bar{X}^2 = \sum X_i^2 - n\bar{X}^2 i=1∑n(Xi−Xˉ)2=∑Xi2−2Xˉ∑Xi+nXˉ2=∑Xi2−2nXˉ2+nXˉ2=∑Xi2−nXˉ2
所以:
E∑i=1n(Xi−Xˉ)2=E∑i=1nXi2−nXˉ2=∑i=1nEXi2−nEXˉ2 \mathbb{E}\left\\sum_{i=1}\^n (X_i - \\bar{X})\^2 \\right = \mathbb{E}\left \\sum_{i=1}\^n X_i\^2 - n\\bar{X}\^2 \\right = \sum_{i=1}^n \mathbb{E}X_i\^2 - n \mathbb{E}\\bar{X}\^2 Ei=1∑n(Xi−Xˉ)2=Ei=1∑nXi2−nXˉ2=i=1∑nEXi2−nEXˉ2
📌 步骤 2:计算每一项的期望
2.1 (EXi2)(\mathbb{E}X_i\^2)(EXi2)
由于 (Xi∼i.i.d.)( X_i \sim \text{i.i.d.} )(Xi∼i.i.d.),所以对于每个 (i)( i )(i):
EXi2=Var(Xi)+(EXi)2=σ2+μ2 \mathbb{E}X_i\^2 = \text{Var}(X_i) + (\mathbb{E}X_i)^2 = \sigma^2 + \mu^2 EXi2=Var(Xi)+(EXi)2=σ2+μ2
所以:
∑i=1nEXi2=n(σ2+μ2) \sum_{i=1}^n \mathbb{E}X_i\^2 = n(\sigma^2 + \mu^2) i=1∑nEXi2=n(σ2+μ2)
2.2 (EXˉ2)(\mathbb{E}\\bar{X}\^2)(EXˉ2)
EXˉ2=Var(Xˉ)+(EXˉ)2=σ2n+μ2 \mathbb{E}\\bar{X}\^2 = \text{Var}(\bar{X}) + (\mathbb{E}\\bar{X})^2 = \frac{\sigma^2}{n} + \mu^2 EXˉ2=Var(Xˉ)+(EXˉ)2=nσ2+μ2
所以:
nEXˉ2=n(σ2n+μ2)=σ2+nμ2 n\mathbb{E}\\bar{X}\^2 = n\left( \frac{\sigma^2}{n} + \mu^2 \right) = \sigma^2 + n\mu^2 nEXˉ2=n(nσ2+μ2)=σ2+nμ2
✨ 步骤 3:代入并相减
E∑i=1n(Xi−Xˉ)2=n(σ2+μ2)−(σ2+nμ2)=nσ2+nμ2−σ2−nμ2=(n−1)σ2 \mathbb{E}\left \\sum_{i=1}\^n (X_i - \\bar{X})\^2 \\right = n(\sigma^2 + \mu^2) - \left( \sigma^2 + n\mu^2 \right) = n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2 = (n - 1)\sigma^2 Ei=1∑n(Xi−Xˉ)2=n(σ2+μ2)−(σ2+nμ2)=nσ2+nμ2−σ2−nμ2=(n−1)σ2
✅ 最后一步:代入样本方差
ES2=1n−1⋅E∑i=1n(Xi−Xˉ)2=1n−1⋅(n−1)σ2=σ2 \mathbb{E}S\^2 = \frac{1}{n - 1} \cdot \mathbb{E} \left \\sum_{i=1}\^n (X_i - \\bar{X})\^2 \\right = \frac{1}{n - 1} \cdot (n - 1)\sigma^2 = \sigma^2 ES2=n−11⋅Ei=1∑n(Xi−Xˉ)2=n−11⋅(n−1)σ2=σ2
🎉 结论
ES2=σ2 \mathbb{E}S\^2 = \sigma^2 ES2=σ2
因此,
样本方差 (S2=1n−1∑(Xi−Xˉ)2)( S^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2 )(S2=n−11∑(Xi−Xˉ)2) 是总体方差 (σ2)( \sigma^2 )(σ2) 的无偏估计。
💡 为什么要除以 (n−1)( n - 1 )(n−1) 而不是 (n)( n )(n)?
直觉解释:
- 当你用样本估计总体均值 (μ)( \mu )(μ) 时,用的是 样本均值 (Xˉ)( \bar{X} )(Xˉ),这是一个对数据的"估计";
- 因为你已经用数据"消耗"了一部分自由度去估计 (Xˉ)( \bar{X} )(Xˉ),所以在计算方差时,不能再当作所有 (n)( n )(n) 个数据都是独立的;
- 这就是统计学中所说的:自由度减少了 1 ,因此方差需要除以 (n−1)( n - 1 )(n−1)。