在上一讲中,我们学习了点估计的两种常用方法------矩估计和最大似然估计。然而,对于一个未知参数,往往有多种可能的估计量。那么,如何评价一个估计量的优劣?当点估计给出一个数值后,我们又如何衡量这个估计的精度?本讲将首先介绍估计量的三个核心评价准则:无偏性 、有效性 和一致性 ;然后引入区间估计 ,讲解置信区间 的概念及其构造方法,重点包括一个正态总体均值的置信区间、两个正态总体均值差的置信区间以及比例 p p p 的置信区间。
1. 估计量的评价准则
1.1 无偏性
定义 :设 θ ^ \hat{\theta} θ^ 是参数 θ \theta θ 的一个估计量,如果
E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的无偏估计量(unbiased estimator)。无偏性意味着在重复抽样下,估计量的平均值等于参数的真值,即没有系统偏差。
样本均值的无偏性
设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是来自总体的简单随机样本,总体均值 E [ X i ] = μ E[X_i] = \mu E[Xi]=μ,则样本均值 X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1∑i=1nXi 的期望为:
E [ X ˉ ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ⋅ n μ = μ E[\bar{X}] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n\mu = \mu E[Xˉ]=n1i=1∑nE[Xi]=n1⋅nμ=μ
因此, X ˉ \bar{X} Xˉ 是 μ \mu μ 的无偏估计。
样本方差的无偏性
定义样本方差为
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 . S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2. S2=n−11i=1∑n(Xi−Xˉ)2.
我们需要证明 E [ S 2 ] = σ 2 E[S^2] = \sigma^2 E[S2]=σ2,其中 σ 2 = Var ( X i ) \sigma^2 = \operatorname{Var}(X_i) σ2=Var(Xi)。
推导 :
∑ i = 1 n ( X i − X ˉ ) 2 = ∑ i = 1 n X i 2 − n X ˉ 2 . \sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n\bar{X}^2. i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2.
取期望:
E [ ∑ i = 1 n X i 2 ] = n E [ X i 2 ] = n ( σ 2 + μ 2 ) , E\left[\sum_{i=1}^n X_i^2\right] = n E[X_i^2] = n(\sigma^2 + \mu^2), E[i=1∑nXi2]=nE[Xi2]=n(σ2+μ2),
E [ X ˉ 2 ] = Var ( X ˉ ) + ( E [ X ˉ ] ) 2 = σ 2 n + μ 2 . E[\bar{X}^2] = \operatorname{Var}(\bar{X}) + (E[\bar{X}])^2 = \frac{\sigma^2}{n} + \mu^2. E[Xˉ2]=Var(Xˉ)+(E[Xˉ])2=nσ2+μ2.
因此,
E [ ∑ ( X i − X ˉ ) 2 ] = n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) = ( n − 1 ) σ 2 . E\left[\sum (X_i - \bar{X})^2\right] = n(\sigma^2 + \mu^2) - n\left(\frac{\sigma^2}{n} + \mu^2\right) = (n-1)\sigma^2. E[∑(Xi−Xˉ)2]=n(σ2+μ2)−n(nσ2+μ2)=(n−1)σ2.
于是
E [ S 2 ] = 1 n − 1 E [ ∑ ( X i − X ˉ ) 2 ] = σ 2 . E[S^2] = \frac{1}{n-1} E\left[\sum (X_i - \bar{X})^2\right] = \sigma^2. E[S2]=n−11E[∑(Xi−Xˉ)2]=σ2.
故 S 2 S^2 S2 是 σ 2 \sigma^2 σ2 的无偏估计。而最大似然估计 σ ^ 2 = 1 n ∑ ( X i − X ˉ ) 2 \hat{\sigma}^2 = \frac{1}{n}\sum (X_i - \bar{X})^2 σ^2=n1∑(Xi−Xˉ)2 的期望为 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 nn−1σ2,是有偏的。
例1 :从某正态总体中抽取样本容量 n = 5 n=5 n=5,样本观测值为 2 , 4 , 6 , 8 , 10 2, 4, 6, 8, 10 2,4,6,8,10,则样本均值 x ˉ = 6 \bar{x}=6 xˉ=6,样本方差 s 2 = 1 4 [ ( 2 − 6 ) 2 + ⋯ + ( 10 − 6 ) 2 ] = 10 s^2 = \frac{1}{4}[(2-6)^2+\cdots+(10-6)^2]=10 s2=41[(2−6)2+⋯+(10−6)2]=10。若用 n n n 作分母,则得 8,是有偏的。
1.2 有效性
对于同一个参数,可能存在多个无偏估计量。我们希望选择方差较小的估计量,因为方差越小,估计量波动越小,精度越高。
定义 :设 θ ^ 1 \hat{\theta}_1 θ^1 和 θ ^ 2 \hat{\theta}_2 θ^2 都是 θ \theta θ 的无偏估计,如果
Var ( θ ^ 1 ) ≤ Var ( θ ^ 2 ) , \operatorname{Var}(\hat{\theta}_1) \le \operatorname{Var}(\hat{\theta}_2), Var(θ^1)≤Var(θ^2),
则称 θ ^ 1 \hat{\theta}_1 θ^1 比 θ ^ 2 \hat{\theta}_2 θ^2 更有效 。在所有无偏估计中方差最小的称为最小方差无偏估计(MVUE)。
例2 :对于正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),样本均值 X ˉ \bar{X} Xˉ 和样本中位数 M 都是 μ \mu μ 的无偏估计。已知 Var ( X ˉ ) = σ 2 / n \operatorname{Var}(\bar{X}) = \sigma^2/n Var(Xˉ)=σ2/n,而中位数的渐近方差为 π 2 ⋅ σ 2 n ≈ 1.57 σ 2 n \frac{\pi}{2}\cdot\frac{\sigma^2}{n} \approx 1.57\frac{\sigma^2}{n} 2π⋅nσ2≈1.57nσ2,因此 X ˉ \bar{X} Xˉ 更有效。
1.3 一致性
无偏性和有效性都是针对固定样本量的性质,而一致性(相合性)是估计量的大样本性质。
定义 :如果对任意 ε > 0 \varepsilon > 0 ε>0,
lim n → ∞ P ( ∣ θ ^ n − θ ∣ > ε ) = 0 , \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \varepsilon) = 0, n→∞limP(∣θ^n−θ∣>ε)=0,
即 θ ^ n \hat{\theta}_n θ^n 依概率收敛于 θ \theta θ,则称 θ ^ n \hat{\theta}_n θ^n 是 θ \theta θ 的一致估计量(consistent estimator)。
根据大数定律,样本均值 X ˉ \bar{X} Xˉ 是 μ \mu μ 的一致估计;样本方差 S 2 S^2 S2 也是 σ 2 \sigma^2 σ2 的一致估计。最大似然估计在相当广泛的条件下也是一致的。
例3 :从二项分布 B ( 1 , p ) B(1,p) B(1,p) 中抽样, p ^ n = X ˉ n \hat{p}_n = \bar{X}_n p^n=Xˉn,由大数定律, p ^ n → P p \hat{p}_n \xrightarrow{P} p p^nP p,故 p ^ n \hat{p}_n p^n 是 p p p 的一致估计。
2. 区间估计
点估计给出了参数的一个数值,但没有给出估计的精度。区间估计则构造一个随机区间,以一定的置信水平包含参数的真值。
2.1 置信区间的概念(频率学派解释)
设总体分布依赖于未知参数 θ \theta θ,从总体中抽取样本 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn。构造两个统计量 L = L ( X 1 , ... , X n ) L = L(X_1,\dots,X_n) L=L(X1,...,Xn) 和 U = U ( X 1 , ... , X n ) U = U(X_1,\dots,X_n) U=U(X1,...,Xn),且 L < U L < U L<U。如果对于给定的 α ∈ ( 0 , 1 ) \alpha \in (0,1) α∈(0,1),有
P ( L ≤ θ ≤ U ) = 1 − α , P(L \le \theta \le U) = 1 - \alpha, P(L≤θ≤U)=1−α,
则称 ( L , U ) (L, U) (L,U) 为 θ \theta θ 的置信水平 为 1 − α 1-\alpha 1−α 的置信区间 。 1 − α 1-\alpha 1−α 称为置信水平 (confidence level), α \alpha α 称为显著性水平。
频率学派解释 :如果重复进行多次抽样,每次构造一个置信区间,那么大约有 100 ( 1 − α ) % 100(1-\alpha)\% 100(1−α)% 的区间会覆盖真值 θ \theta θ。注意:对于一个特定的样本,计算出的区间要么包含 θ \theta θ,要么不包含,不能说" θ \theta θ 落在该区间内的概率是 1 − α 1-\alpha 1−α"。
2.2 一个正态总体均值的置信区间
设 X 1 , ... , X n ∼ i.i.d. N ( μ , σ 2 ) X_1,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2) X1,...,Xn∼i.i.d.N(μ,σ2), μ \mu μ 未知。
情形1:方差 σ 2 \sigma^2 σ2 已知
由抽样分布, X ˉ ∼ N ( μ , σ 2 / n ) \bar{X} \sim N(\mu, \sigma^2/n) Xˉ∼N(μ,σ2/n),因此
Z = X ˉ − μ σ / n ∼ N ( 0 , 1 ) . Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1). Z=σ/n Xˉ−μ∼N(0,1).
对于给定的置信水平 1 − α 1-\alpha 1−α,存在 z α / 2 z_{\alpha/2} zα/2 使得 P ( − z α / 2 ≤ Z ≤ z α / 2 ) = 1 − α P(-z_{\alpha/2} \le Z \le z_{\alpha/2}) = 1-\alpha P(−zα/2≤Z≤zα/2)=1−α。于是
P ( X ˉ − z α / 2 σ n ≤ μ ≤ X ˉ + z α / 2 σ n ) = 1 − α . P\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha. P(Xˉ−zα/2n σ≤μ≤Xˉ+zα/2n σ)=1−α.
因此, μ \mu μ 的置信区间为:
( X ˉ − z α / 2 σ n , X ˉ + z α / 2 σ n ) . \left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}},\ \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right). (Xˉ−zα/2n σ, Xˉ+zα/2n σ).
例4 :某零件长度服从 N ( μ , 0.1 2 ) N(\mu, 0.1^2) N(μ,0.12),随机抽取 25 个,测得样本均值 x ˉ = 5.02 \bar{x}=5.02 xˉ=5.02 cm。求 μ \mu μ 的 95% 置信区间。查表得 z 0.025 = 1.96 z_{0.025}=1.96 z0.025=1.96,则区间为 5.02 ± 1.96 × 0.1 / 25 = 5.02 ± 0.0392 5.02 \pm 1.96 \times 0.1 / \sqrt{25} = 5.02 \pm 0.0392 5.02±1.96×0.1/25 =5.02±0.0392,即 ( 4.9808 , 5.0592 ) (4.9808, 5.0592) (4.9808,5.0592)。
情形2:方差 σ 2 \sigma^2 σ2 未知
当 σ 2 \sigma^2 σ2 未知时,用样本标准差 S 代替 σ \sigma σ,此时统计量
T = X ˉ − μ S / n ∼ t ( n − 1 ) , T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1), T=S/n Xˉ−μ∼t(n−1),
服从自由度为 n-1 的 t t t 分布。记 t α / 2 ( n − 1 ) t_{\alpha/2}(n-1) tα/2(n−1) 为 t t t 分布的上 α / 2 \alpha/2 α/2 分位数,则
P ( − t α / 2 ( n − 1 ) ≤ X ˉ − μ S / n ≤ t α / 2 ( n − 1 ) ) = 1 − α . P\left( -t_{\alpha/2}(n-1) \le \frac{\bar{X} - \mu}{S/\sqrt{n}} \le t_{\alpha/2}(n-1) \right) = 1-\alpha. P(−tα/2(n−1)≤S/n Xˉ−μ≤tα/2(n−1))=1−α.
因此 μ \mu μ 的置信区间为:
( X ˉ − t α / 2 ( n − 1 ) S n , X ˉ + t α / 2 ( n − 1 ) S n ) . \left( \bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}},\ \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}} \right). (Xˉ−tα/2(n−1)n S, Xˉ+tα/2(n−1)n S).
例5 :为估计某种电池的平均寿命,随机抽取 16 节电池,测得寿命(小时)为: 100 , 102 , 98 , 101 , 99 , 103 , 97 , 100 , 101 , 102 , 98 , 99 , 100 , 101 , 100 , 99 100, 102, 98, 101, 99, 103, 97, 100, 101, 102, 98, 99, 100, 101, 100, 99 100,102,98,101,99,103,97,100,101,102,98,99,100,101,100,99。计算得 x ˉ = 100.125 \bar{x}=100.125 xˉ=100.125, s ≈ 1.544 s \approx 1.544 s≈1.544。求 95% 置信区间。自由度 n − 1 = 15 n-1=15 n−1=15,查表 t 0.025 ( 15 ) = 2.131 t_{0.025}(15)=2.131 t0.025(15)=2.131,则区间为 100.125 ± 2.131 × 1.544 / 16 = 100.125 ± 0.823 100.125 \pm 2.131 \times 1.544/\sqrt{16} = 100.125 \pm 0.823 100.125±2.131×1.544/16 =100.125±0.823,即 ( 99.302 , 100.948 ) (99.302, 100.948) (99.302,100.948)。
2.3 两个正态总体均值差的置信区间(简单了解)
设 X 1 , ... , X n 1 ∼ N ( μ 1 , σ 1 2 ) X_1,\dots,X_{n_1} \sim N(\mu_1, \sigma_1^2) X1,...,Xn1∼N(μ1,σ12), Y 1 , ... , Y n 2 ∼ N ( μ 2 , σ 2 2 ) Y_1,\dots,Y_{n_2} \sim N(\mu_2, \sigma_2^2) Y1,...,Yn2∼N(μ2,σ22),两样本独立。我们关注 μ 1 − μ 2 \mu_1 - \mu_2 μ1−μ2。
情形1:两方差已知
X ˉ − Y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) . \bar{X} - \bar{Y} \sim N\left(\mu_1 - \mu_2,\ \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\right). Xˉ−Yˉ∼N(μ1−μ2, n1σ12+n2σ22).
构造枢轴量 Z = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) Z = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1) Z=n1σ12+n2σ22 (Xˉ−Yˉ)−(μ1−μ2)∼N(0,1),置信区间为:
X ˉ − Y ˉ ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 . \bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}. Xˉ−Yˉ±zα/2n1σ12+n2σ22 .
情形2:两方差未知但相等( σ 1 2 = σ 2 2 = σ 2 \sigma_1^2 = \sigma_2^2 = \sigma^2 σ12=σ22=σ2)
用合并方差 S p 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2} Sp2=n1+n2−2(n1−1)S12+(n2−1)S22,则
T = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S p 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) . T = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1+n_2-2). T=Spn11+n21 (Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2).
置信区间为:
X ˉ − Y ˉ ± t α / 2 ( n 1 + n 2 − 2 ) ⋅ S p 1 n 1 + 1 n 2 . \bar{X} - \bar{Y} \pm t_{\alpha/2}(n_1+n_2-2) \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}. Xˉ−Yˉ±tα/2(n1+n2−2)⋅Spn11+n21 .
例6 :比较两种教学方法,A组 10 人,B组 10 人,成绩方差齐性,计算得 x ˉ A = 75 \bar{x}_A=75 xˉA=75, x ˉ B = 70 \bar{x}B=70 xˉB=70, S p = 8 S_p=8 Sp=8,则 95% 置信区间为 5 ± t 0.025 ( 18 ) × 8 1 / 10 + 1 / 10 = 5 ± 2.101 × 8 × 0.4472 ≈ 5 ± 7.52 5 \pm t{0.025}(18)\times 8\sqrt{1/10+1/10} = 5 \pm 2.101\times 8\times 0.4472 \approx 5 \pm 7.52 5±t0.025(18)×81/10+1/10 =5±2.101×8×0.4472≈5±7.52,即 ( − 2.52 , 12.52 ) (-2.52, 12.52) (−2.52,12.52)。因包含 0,不能认为有显著差异。
2.4 比例 p p p 的置信区间(大样本近似)
设总体服从伯努利分布 B ( 1 , p ) B(1,p) B(1,p),抽取 n n n 次独立试验,成功次数 X ∼ B ( n , p ) X \sim B(n,p) X∼B(n,p)。样本比例 p ^ = X / n \hat{p} = X/n p^=X/n。由中心极限定理,当 n n n 充分大时,
p ^ ≈ N ( p , p ( 1 − p ) n ) . \hat{p} \approx N\left(p,\ \frac{p(1-p)}{n}\right). p^≈N(p, np(1−p)).
用 p ^ \hat{p} p^ 代替 p ( 1 − p ) p(1-p) p(1−p) 中的 p p p,得到近似置信区间:
p ^ ± z α / 2 p ^ ( 1 − p ^ ) n . \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. p^±zα/2np^(1−p^) .
通常要求 n p ^ ≥ 5 n\hat{p} \ge 5 np^≥5 且 n ( 1 − p ^ ) ≥ 5 n(1-\hat{p}) \ge 5 n(1−p^)≥5 以保证近似精度。
例7 :在一项民意调查中,随机调查 1000 人,支持某项政策的比例为 0.55。求 95% 置信区间。 p ^ = 0.55 \hat{p}=0.55 p^=0.55, z 0.025 = 1.96 z_{0.025}=1.96 z0.025=1.96,标准误 0.55 × 0.45 / 1000 ≈ 0.0157 \sqrt{0.55\times 0.45/1000} \approx 0.0157 0.55×0.45/1000 ≈0.0157,区间为 0.55 ± 1.96 × 0.0157 = 0.55 ± 0.0308 0.55 \pm 1.96\times 0.0157 = 0.55 \pm 0.0308 0.55±1.96×0.0157=0.55±0.0308,即 ( 0.5192 , 0.5808 ) (0.5192, 0.5808) (0.5192,0.5808)。
3. 总结
-
估计量的评价:无偏性(期望等于真值)、有效性(方差小)、一致性(大样本收敛),共同衡量了估计量的优劣。
-
区间估计 :给出了参数的一个可能范围,并附以置信水平。我们重点学习了正态总体均值的置信区间(方差已知用 z z z 分布,未知用 t t t 分布)、两正态总体均值差的区间以及比例 p p p 的大样本区间。