机器学习概率论与统计学--(10)统计学：参数估计②

在上一讲中，我们学习了点估计的两种常用方法------矩估计和最大似然估计。然而，对于一个未知参数，往往有多种可能的估计量。那么，如何评价一个估计量的优劣？当点估计给出一个数值后，我们又如何衡量这个估计的精度？本讲将首先介绍估计量的三个核心评价准则：无偏性 、有效性 和一致性 ；然后引入区间估计 ，讲解置信区间 的概念及其构造方法，重点包括一个正态总体均值的置信区间、两个正态总体均值差的置信区间以及比例 p p p 的置信区间。

1. 估计量的评价准则

1.1 无偏性

定义：设 θ ^ \hat{\theta} θ^ 是参数 θ \theta θ 的一个估计量，如果
E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ

则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的无偏估计量（unbiased estimator）。无偏性意味着在重复抽样下，估计量的平均值等于参数的真值，即没有系统偏差。

样本均值的无偏性

设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是来自总体的简单随机样本，总体均值 E [ X i ] = μ E[X_i] = \mu E[Xi]=μ，则样本均值 X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1∑i=1nXi 的期望为：
E [ X ˉ ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ⋅ n μ = μ E[\bar{X}] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n\mu = \mu E[Xˉ]=n1i=1∑nE[Xi]=n1⋅nμ=μ

因此， X ˉ \bar{X} Xˉ 是 μ \mu μ 的无偏估计。

样本方差的无偏性

定义样本方差为
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 . S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2. S2=n−11i=1∑n(Xi−Xˉ)2.

我们需要证明 E [ S 2 ] = σ 2 E[S^2] = \sigma^2 E[S2]=σ2，其中 σ 2 = Var ⁡ ( X i ) \sigma^2 = \operatorname{Var}(X_i) σ2=Var(Xi)。

推导：
∑ i = 1 n ( X i − X ˉ ) 2 = ∑ i = 1 n X i 2 − n X ˉ 2 . \sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n\bar{X}^2. i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2.

取期望：
E [ ∑ i = 1 n X i 2 ] = n E [ X i 2 ] = n ( σ 2 + μ 2 ) , E\left[\sum_{i=1}^n X_i^2\right] = n E[X_i^2] = n(\sigma^2 + \mu^2), E[i=1∑nXi2]=nE[Xi2]=n(σ2+μ2),

E [ X ˉ 2 ] = Var ⁡ ( X ˉ ) + ( E [ X ˉ ] ) 2 = σ 2 n + μ 2 . E[\bar{X}^2] = \operatorname{Var}(\bar{X}) + (E[\bar{X}])^2 = \frac{\sigma^2}{n} + \mu^2. E[Xˉ2]=Var(Xˉ)+(E[Xˉ])2=nσ2+μ2.

因此，
E [ ∑ ( X i − X ˉ ) 2 ] = n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) = ( n − 1 ) σ 2 . E\left[\sum (X_i - \bar{X})^2\right] = n(\sigma^2 + \mu^2) - n\left(\frac{\sigma^2}{n} + \mu^2\right) = (n-1)\sigma^2. E[∑(Xi−Xˉ)2]=n(σ2+μ2)−n(nσ2+μ2)=(n−1)σ2.

于是
E [ S 2 ] = 1 n − 1 E [ ∑ ( X i − X ˉ ) 2 ] = σ 2 . E[S^2] = \frac{1}{n-1} E\left[\sum (X_i - \bar{X})^2\right] = \sigma^2. E[S2]=n−11E[∑(Xi−Xˉ)2]=σ2.

故 S 2 S^2 S2 是 σ 2 \sigma^2 σ2 的无偏估计。而最大似然估计 σ ^ 2 = 1 n ∑ ( X i − X ˉ ) 2 \hat{\sigma}^2 = \frac{1}{n}\sum (X_i - \bar{X})^2 σ^2=n1∑(Xi−Xˉ)2 的期望为 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 nn−1σ2，是有偏的。

例1 ：从某正态总体中抽取样本容量 n = 5 n=5 n=5，样本观测值为 2 , 4 , 6 , 8 , 10 2, 4, 6, 8, 10 2,4,6,8,10，则样本均值 x ˉ = 6 \bar{x}=6 xˉ=6，样本方差 s 2 = 1 4 [ ( 2 − 6 ) 2 + ⋯ + ( 10 − 6 ) 2 ] = 10 s^2 = \frac{1}{4}[(2-6)^2+\cdots+(10-6)^2]=10 s2=41[(2−6)2+⋯+(10−6)2]=10。若用 n n n 作分母，则得 8，是有偏的。

1.2 有效性

对于同一个参数，可能存在多个无偏估计量。我们希望选择方差较小的估计量，因为方差越小，估计量波动越小，精度越高。

定义：设 θ ^ 1 \hat{\theta}_1 θ^1 和 θ ^ 2 \hat{\theta}_2 θ^2 都是 θ \theta θ 的无偏估计，如果
Var ⁡ ( θ ^ 1 ) ≤ Var ⁡ ( θ ^ 2 ) , \operatorname{Var}(\hat{\theta}_1) \le \operatorname{Var}(\hat{\theta}_2), Var(θ^1)≤Var(θ^2),

则称 θ ^ 1 \hat{\theta}_1 θ^1 比 θ ^ 2 \hat{\theta}_2 θ^2 更有效 。在所有无偏估计中方差最小的称为最小方差无偏估计（MVUE）。

例2 ：对于正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)，样本均值 X ˉ \bar{X} Xˉ 和样本中位数 $M$ 都是 μ \mu μ 的无偏估计。已知 Var ⁡ ( X ˉ ) = σ 2 / n \operatorname{Var}(\bar{X}) = \sigma^2/n Var(Xˉ)=σ2/n，而中位数的渐近方差为 π 2 ⋅ σ 2 n ≈ 1.57 σ 2 n \frac{\pi}{2}\cdot\frac{\sigma^2}{n} \approx 1.57\frac{\sigma^2}{n} 2π⋅nσ2≈1.57nσ2，因此 X ˉ \bar{X} Xˉ 更有效。

1.3 一致性

无偏性和有效性都是针对固定样本量的性质，而一致性（相合性）是估计量的大样本性质。

定义：如果对任意 ε > 0 \varepsilon > 0 ε>0，
lim ⁡ n → ∞ P ( ∣ θ ^ n − θ ∣ > ε ) = 0 , \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \varepsilon) = 0, n→∞limP(∣θ^n−θ∣>ε)=0,

即 θ ^ n \hat{\theta}_n θ^n 依概率收敛于 θ \theta θ，则称 θ ^ n \hat{\theta}_n θ^n 是 θ \theta θ 的一致估计量（consistent estimator）。

根据大数定律，样本均值 X ˉ \bar{X} Xˉ 是 μ \mu μ 的一致估计；样本方差 S 2 S^2 S2 也是 σ 2 \sigma^2 σ2 的一致估计。最大似然估计在相当广泛的条件下也是一致的。

例3 ：从二项分布 B ( 1 , p ) B(1,p) B(1,p) 中抽样， p ^ n = X ˉ n \hat{p}_n = \bar{X}_n p^n=Xˉn，由大数定律， p ^ n → P p \hat{p}_n \xrightarrow{P} p p^nP p，故 p ^ n \hat{p}_n p^n 是 p p p 的一致估计。

2. 区间估计

点估计给出了参数的一个数值，但没有给出估计的精度。区间估计则构造一个随机区间，以一定的置信水平包含参数的真值。

2.1 置信区间的概念（频率学派解释）

设总体分布依赖于未知参数 θ \theta θ，从总体中抽取样本 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn。构造两个统计量 L = L ( X 1 , ... , X n ) L = L(X_1,\dots,X_n) L=L(X1,...,Xn) 和 U = U ( X 1 , ... , X n ) U = U(X_1,\dots,X_n) U=U(X1,...,Xn)，且 L < U L < U L<U。如果对于给定的 α ∈ ( 0 , 1 ) \alpha \in (0,1) α∈(0,1)，有
P ( L ≤ θ ≤ U ) = 1 − α , P(L \le \theta \le U) = 1 - \alpha, P(L≤θ≤U)=1−α,

则称 ( L , U ) (L, U) (L,U) 为 θ \theta θ 的置信水平 为 1 − α 1-\alpha 1−α 的置信区间 。 1 − α 1-\alpha 1−α 称为置信水平 （confidence level）， α \alpha α 称为显著性水平。

频率学派解释 ：如果重复进行多次抽样，每次构造一个置信区间，那么大约有 100 ( 1 − α ) % 100(1-\alpha)\% 100(1−α)% 的区间会覆盖真值 θ \theta θ。注意：对于一个特定的样本，计算出的区间要么包含 θ \theta θ，要么不包含，不能说" θ \theta θ 落在该区间内的概率是 1 − α 1-\alpha 1−α"。

2.2 一个正态总体均值的置信区间

设 X 1 , ... , X n ∼ i.i.d. N ( μ , σ 2 ) X_1,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2) X1,...,Xn∼i.i.d.N(μ,σ2)， μ \mu μ 未知。

情形1：方差 σ 2 \sigma^2 σ2 已知

由抽样分布， X ˉ ∼ N ( μ , σ 2 / n ) \bar{X} \sim N(\mu, \sigma^2/n) Xˉ∼N(μ,σ2/n)，因此
Z = X ˉ − μ σ / n ∼ N ( 0 , 1 ) . Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1). Z=σ/n Xˉ−μ∼N(0,1).

对于给定的置信水平 1 − α 1-\alpha 1−α，存在 z α / 2 z_{\alpha/2} zα/2 使得 P ( − z α / 2 ≤ Z ≤ z α / 2 ) = 1 − α P(-z_{\alpha/2} \le Z \le z_{\alpha/2}) = 1-\alpha P(−zα/2≤Z≤zα/2)=1−α。于是
P ( X ˉ − z α / 2 σ n ≤ μ ≤ X ˉ + z α / 2 σ n ) = 1 − α . P\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha. P(Xˉ−zα/2n σ≤μ≤Xˉ+zα/2n σ)=1−α.

因此， μ \mu μ 的置信区间为：
( X ˉ − z α / 2 σ n , X ˉ + z α / 2 σ n ) . \left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}},\ \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right). (Xˉ−zα/2n σ, Xˉ+zα/2n σ).

例4 ：某零件长度服从 N ( μ , 0.1 2 ) N(\mu, 0.1^2) N(μ,0.12)，随机抽取 25 个，测得样本均值 x ˉ = 5.02 \bar{x}=5.02 xˉ=5.02 cm。求 μ \mu μ 的 95% 置信区间。查表得 z 0.025 = 1.96 z_{0.025}=1.96 z0.025=1.96，则区间为 5.02 ± 1.96 × 0.1 / 25 = 5.02 ± 0.0392 5.02 \pm 1.96 \times 0.1 / \sqrt{25} = 5.02 \pm 0.0392 5.02±1.96×0.1/25 =5.02±0.0392，即 ( 4.9808 , 5.0592 ) (4.9808, 5.0592) (4.9808,5.0592)。

情形2：方差 σ 2 \sigma^2 σ2 未知

当 σ 2 \sigma^2 σ2 未知时，用样本标准差 $S$ 代替 σ \sigma σ，此时统计量
T = X ˉ − μ S / n ∼ t ( n − 1 ) , T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1), T=S/n Xˉ−μ∼t(n−1),

服从自由度为 $n-1$ 的 t t t 分布。记 t α / 2 ( n − 1 ) t_{\alpha/2}(n-1) tα/2(n−1) 为 t t t 分布的上 α / 2 \alpha/2 α/2 分位数，则
P ( − t α / 2 ( n − 1 ) ≤ X ˉ − μ S / n ≤ t α / 2 ( n − 1 ) ) = 1 − α . P\left( -t_{\alpha/2}(n-1) \le \frac{\bar{X} - \mu}{S/\sqrt{n}} \le t_{\alpha/2}(n-1) \right) = 1-\alpha. P(−tα/2(n−1)≤S/n Xˉ−μ≤tα/2(n−1))=1−α.

因此 μ \mu μ 的置信区间为：
( X ˉ − t α / 2 ( n − 1 ) S n , X ˉ + t α / 2 ( n − 1 ) S n ) . \left( \bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}},\ \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}} \right). (Xˉ−tα/2(n−1)n S, Xˉ+tα/2(n−1)n S).

例5 ：为估计某种电池的平均寿命，随机抽取 16 节电池，测得寿命（小时）为： 100 , 102 , 98 , 101 , 99 , 103 , 97 , 100 , 101 , 102 , 98 , 99 , 100 , 101 , 100 , 99 100, 102, 98, 101, 99, 103, 97, 100, 101, 102, 98, 99, 100, 101, 100, 99 100,102,98,101,99,103,97,100,101,102,98,99,100,101,100,99。计算得 x ˉ = 100.125 \bar{x}=100.125 xˉ=100.125， s ≈ 1.544 s \approx 1.544 s≈1.544。求 95% 置信区间。自由度 n − 1 = 15 n-1=15 n−1=15，查表 t 0.025 ( 15 ) = 2.131 t_{0.025}(15)=2.131 t0.025(15)=2.131，则区间为 100.125 ± 2.131 × 1.544 / 16 = 100.125 ± 0.823 100.125 \pm 2.131 \times 1.544/\sqrt{16} = 100.125 \pm 0.823 100.125±2.131×1.544/16 =100.125±0.823，即 ( 99.302 , 100.948 ) (99.302, 100.948) (99.302,100.948)。

2.3 两个正态总体均值差的置信区间（简单了解）

设 X 1 , ... , X n 1 ∼ N ( μ 1 , σ 1 2 ) X_1,\dots,X_{n_1} \sim N(\mu_1, \sigma_1^2) X1,...,Xn1∼N(μ1,σ12)， Y 1 , ... , Y n 2 ∼ N ( μ 2 , σ 2 2 ) Y_1,\dots,Y_{n_2} \sim N(\mu_2, \sigma_2^2) Y1,...,Yn2∼N(μ2,σ22)，两样本独立。我们关注 μ 1 − μ 2 \mu_1 - \mu_2 μ1−μ2。

情形1：两方差已知

X ˉ − Y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) . \bar{X} - \bar{Y} \sim N\left(\mu_1 - \mu_2,\ \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\right). Xˉ−Yˉ∼N(μ1−μ2, n1σ12+n2σ22).

构造枢轴量 Z = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) Z = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1) Z=n1σ12+n2σ22 (Xˉ−Yˉ)−(μ1−μ2)∼N(0,1)，置信区间为：
X ˉ − Y ˉ ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 . \bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}. Xˉ−Yˉ±zα/2n1σ12+n2σ22 .

情形2：两方差未知但相等（ σ 1 2 = σ 2 2 = σ 2 \sigma_1^2 = \sigma_2^2 = \sigma^2 σ12=σ22=σ2）

用合并方差 S p 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2} Sp2=n1+n2−2(n1−1)S12+(n2−1)S22，则
T = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S p 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) . T = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1+n_2-2). T=Spn11+n21 (Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2).

置信区间为：
X ˉ − Y ˉ ± t α / 2 ( n 1 + n 2 − 2 ) ⋅ S p 1 n 1 + 1 n 2 . \bar{X} - \bar{Y} \pm t_{\alpha/2}(n_1+n_2-2) \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}. Xˉ−Yˉ±tα/2(n1+n2−2)⋅Spn11+n21 .

例6 ：比较两种教学方法，A组 10 人，B组 10 人，成绩方差齐性，计算得 x ˉ A = 75 \bar{x}_A=75 xˉA=75， x ˉ B = 70 \bar{x}B=70 xˉB=70， S p = 8 S_p=8 Sp=8，则 95% 置信区间为 5 ± t 0.025 ( 18 ) × 8 1 / 10 + 1 / 10 = 5 ± 2.101 × 8 × 0.4472 ≈ 5 ± 7.52 5 \pm t{0.025}(18)\times 8\sqrt{1/10+1/10} = 5 \pm 2.101\times 8\times 0.4472 \approx 5 \pm 7.52 5±t0.025(18)×81/10+1/10 =5±2.101×8×0.4472≈5±7.52，即 ( − 2.52 , 12.52 ) (-2.52, 12.52) (−2.52,12.52)。因包含 0，不能认为有显著差异。

2.4 比例 p p p 的置信区间（大样本近似）

设总体服从伯努利分布 B ( 1 , p ) B(1,p) B(1,p)，抽取 n n n 次独立试验，成功次数 X ∼ B ( n , p ) X \sim B(n,p) X∼B(n,p)。样本比例 p ^ = X / n \hat{p} = X/n p^=X/n。由中心极限定理，当 n n n 充分大时，
p ^ ≈ N ( p , p ( 1 − p ) n ) . \hat{p} \approx N\left(p,\ \frac{p(1-p)}{n}\right). p^≈N(p, np(1−p)).

用 p ^ \hat{p} p^ 代替 p ( 1 − p ) p(1-p) p(1−p) 中的 p p p，得到近似置信区间：
p ^ ± z α / 2 p ^ ( 1 − p ^ ) n . \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. p^±zα/2np^(1−p^) .

通常要求 n p ^ ≥ 5 n\hat{p} \ge 5 np^≥5 且 n ( 1 − p ^ ) ≥ 5 n(1-\hat{p}) \ge 5 n(1−p^)≥5 以保证近似精度。

例7 ：在一项民意调查中，随机调查 1000 人，支持某项政策的比例为 0.55。求 95% 置信区间。 p ^ = 0.55 \hat{p}=0.55 p^=0.55， z 0.025 = 1.96 z_{0.025}=1.96 z0.025=1.96，标准误 0.55 × 0.45 / 1000 ≈ 0.0157 \sqrt{0.55\times 0.45/1000} \approx 0.0157 0.55×0.45/1000 ≈0.0157，区间为 0.55 ± 1.96 × 0.0157 = 0.55 ± 0.0308 0.55 \pm 1.96\times 0.0157 = 0.55 \pm 0.0308 0.55±1.96×0.0157=0.55±0.0308，即 ( 0.5192 , 0.5808 ) (0.5192, 0.5808) (0.5192,0.5808)。

3. 总结

估计量的评价：无偏性（期望等于真值）、有效性（方差小）、一致性（大样本收敛），共同衡量了估计量的优劣。
区间估计 ：给出了参数的一个可能范围，并附以置信水平。我们重点学习了正态总体均值的置信区间（方差已知用 z z z 分布，未知用 t t t 分布）、两正态总体均值差的区间以及比例 p p p 的大样本区间。

上一章 机器学习概率论与统计学--(9)统计学：参数估计