机器学习概率论与统计学--(10)统计学:参数估计②

在上一讲中,我们学习了点估计的两种常用方法------矩估计和最大似然估计。然而,对于一个未知参数,往往有多种可能的估计量。那么,如何评价一个估计量的优劣?当点估计给出一个数值后,我们又如何衡量这个估计的精度?本讲将首先介绍估计量的三个核心评价准则:无偏性有效性一致性 ;然后引入区间估计 ,讲解置信区间 的概念及其构造方法,重点包括一个正态总体均值的置信区间、两个正态总体均值差的置信区间以及比例 p p p 的置信区间。


1. 估计量的评价准则

1.1 无偏性

定义 :设 θ ^ \hat{\theta} θ^ 是参数 θ \theta θ 的一个估计量,如果
E θ \^ = θ E\\hat{\\theta} = \theta Eθ\^

则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的无偏估计量(unbiased estimator)。无偏性意味着在重复抽样下,估计量的平均值等于参数的真值,即没有系统偏差。

样本均值的无偏性

设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是来自总体的简单随机样本,总体均值 E X i = μ EX_i = \mu EXi=μ,则样本均值 X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i Xˉ=n1∑i=1nXi 的期望为:
E X ˉ = 1 n ∑ i = 1 n E X i = 1 n ⋅ n μ = μ E\\bar{X} = \frac{1}{n}\sum_{i=1}^n EX_i = \frac{1}{n} \cdot n\mu = \mu E=n1i=1∑nEXi=n1⋅nμ=μ

因此, X ˉ \bar{X} Xˉ 是 μ \mu μ 的无偏估计。

样本方差的无偏性

定义样本方差为
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 . S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2. S2=n−11i=1∑n(Xi−Xˉ)2.

我们需要证明 E S 2 = σ 2 ES\^2 = \sigma^2 ES2=σ2,其中 σ 2 = Var ⁡ ( X i ) \sigma^2 = \operatorname{Var}(X_i) σ2=Var(Xi)。

推导
∑ i = 1 n ( X i − X ˉ ) 2 = ∑ i = 1 n X i 2 − n X ˉ 2 . \sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n\bar{X}^2. i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2.

取期望:
E ∑ i = 1 n X i 2 = n E X i 2 = n ( σ 2 + μ 2 ) , E\left\\sum_{i=1}\^n X_i\^2\\right = n EX_i\^2 = n(\sigma^2 + \mu^2), Ei=1∑nXi2=nEXi2=n(σ2+μ2),

E X ˉ 2 = Var ⁡ ( X ˉ ) + ( E X ˉ ) 2 = σ 2 n + μ 2 . E\\bar{X}\^2 = \operatorname{Var}(\bar{X}) + (E\\bar{X})^2 = \frac{\sigma^2}{n} + \mu^2. EXˉ2=Var(Xˉ)+(E)2=nσ2+μ2.

因此,
E ∑ ( X i − X ˉ ) 2 = n ( σ 2 + μ 2 ) − n ( σ 2 n + μ 2 ) = ( n − 1 ) σ 2 . E\left\\sum (X_i - \\bar{X})\^2\\right = n(\sigma^2 + \mu^2) - n\left(\frac{\sigma^2}{n} + \mu^2\right) = (n-1)\sigma^2. E∑(Xi−Xˉ)2=n(σ2+μ2)−n(nσ2+μ2)=(n−1)σ2.

于是
E S 2 = 1 n − 1 E ∑ ( X i − X ˉ ) 2 = σ 2 . ES\^2 = \frac{1}{n-1} E\left\\sum (X_i - \\bar{X})\^2\\right = \sigma^2. ES2=n−11E∑(Xi−Xˉ)2=σ2.

故 S 2 S^2 S2 是 σ 2 \sigma^2 σ2 的无偏估计。而最大似然估计 σ ^ 2 = 1 n ∑ ( X i − X ˉ ) 2 \hat{\sigma}^2 = \frac{1}{n}\sum (X_i - \bar{X})^2 σ^2=n1∑(Xi−Xˉ)2 的期望为 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 nn−1σ2,是有偏的。

例1 :从某正态总体中抽取样本容量 n = 5 n=5 n=5,样本观测值为 2 , 4 , 6 , 8 , 10 2, 4, 6, 8, 10 2,4,6,8,10,则样本均值 x ˉ = 6 \bar{x}=6 xˉ=6,样本方差 s 2 = 1 4 ( 2 − 6 ) 2 + ⋯ + ( 10 − 6 ) 2 = 10 s^2 = \frac{1}{4}(2-6)\^2+\\cdots+(10-6)\^2=10 s2=41(2−6)2+⋯+(10−6)2=10。若用 n n n 作分母,则得 8,是有偏的。

1.2 有效性

对于同一个参数,可能存在多个无偏估计量。我们希望选择方差较小的估计量,因为方差越小,估计量波动越小,精度越高。

定义 :设 θ ^ 1 \hat{\theta}_1 θ^1 和 θ ^ 2 \hat{\theta}_2 θ^2 都是 θ \theta θ 的无偏估计,如果
Var ⁡ ( θ ^ 1 ) ≤ Var ⁡ ( θ ^ 2 ) , \operatorname{Var}(\hat{\theta}_1) \le \operatorname{Var}(\hat{\theta}_2), Var(θ^1)≤Var(θ^2),

则称 θ ^ 1 \hat{\theta}_1 θ^1 比 θ ^ 2 \hat{\theta}_2 θ^2 更有效 。在所有无偏估计中方差最小的称为最小方差无偏估计(MVUE)。

例2 :对于正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),样本均值 X ˉ \bar{X} Xˉ 和样本中位数 M 都是 μ \mu μ 的无偏估计。已知 Var ⁡ ( X ˉ ) = σ 2 / n \operatorname{Var}(\bar{X}) = \sigma^2/n Var(Xˉ)=σ2/n,而中位数的渐近方差为 π 2 ⋅ σ 2 n ≈ 1.57 σ 2 n \frac{\pi}{2}\cdot\frac{\sigma^2}{n} \approx 1.57\frac{\sigma^2}{n} 2π⋅nσ2≈1.57nσ2,因此 X ˉ \bar{X} Xˉ 更有效。

1.3 一致性

无偏性和有效性都是针对固定样本量的性质,而一致性(相合性)是估计量的大样本性质。

定义 :如果对任意 ε > 0 \varepsilon > 0 ε>0,
lim ⁡ n → ∞ P ( ∣ θ ^ n − θ ∣ > ε ) = 0 , \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \varepsilon) = 0, n→∞limP(∣θ^n−θ∣>ε)=0,

即 θ ^ n \hat{\theta}_n θ^n 依概率收敛于 θ \theta θ,则称 θ ^ n \hat{\theta}_n θ^n 是 θ \theta θ 的一致估计量(consistent estimator)。

根据大数定律,样本均值 X ˉ \bar{X} Xˉ 是 μ \mu μ 的一致估计;样本方差 S 2 S^2 S2 也是 σ 2 \sigma^2 σ2 的一致估计。最大似然估计在相当广泛的条件下也是一致的。

例3 :从二项分布 B ( 1 , p ) B(1,p) B(1,p) 中抽样, p ^ n = X ˉ n \hat{p}_n = \bar{X}_n p^n=Xˉn,由大数定律, p ^ n → P p \hat{p}_n \xrightarrow{P} p p^nP p,故 p ^ n \hat{p}_n p^n 是 p p p 的一致估计。


2. 区间估计

点估计给出了参数的一个数值,但没有给出估计的精度。区间估计则构造一个随机区间,以一定的置信水平包含参数的真值。

2.1 置信区间的概念(频率学派解释)

设总体分布依赖于未知参数 θ \theta θ,从总体中抽取样本 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn。构造两个统计量 L = L ( X 1 , ... , X n ) L = L(X_1,\dots,X_n) L=L(X1,...,Xn) 和 U = U ( X 1 , ... , X n ) U = U(X_1,\dots,X_n) U=U(X1,...,Xn),且 L < U L < U L<U。如果对于给定的 α ∈ ( 0 , 1 ) \alpha \in (0,1) α∈(0,1),有
P ( L ≤ θ ≤ U ) = 1 − α , P(L \le \theta \le U) = 1 - \alpha, P(L≤θ≤U)=1−α,

则称 ( L , U ) (L, U) (L,U) 为 θ \theta θ 的置信水平 为 1 − α 1-\alpha 1−α 的置信区间 。 1 − α 1-\alpha 1−α 称为置信水平 (confidence level), α \alpha α 称为显著性水平

频率学派解释 :如果重复进行多次抽样,每次构造一个置信区间,那么大约有 100 ( 1 − α ) % 100(1-\alpha)\% 100(1−α)% 的区间会覆盖真值 θ \theta θ。注意:对于一个特定的样本,计算出的区间要么包含 θ \theta θ,要么不包含,不能说" θ \theta θ 落在该区间内的概率是 1 − α 1-\alpha 1−α"。

2.2 一个正态总体均值的置信区间

设 X 1 , ... , X n ∼ i.i.d. N ( μ , σ 2 ) X_1,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2) X1,...,Xn∼i.i.d.N(μ,σ2), μ \mu μ 未知。

情形1:方差 σ 2 \sigma^2 σ2 已知

由抽样分布, X ˉ ∼ N ( μ , σ 2 / n ) \bar{X} \sim N(\mu, \sigma^2/n) Xˉ∼N(μ,σ2/n),因此
Z = X ˉ − μ σ / n ∼ N ( 0 , 1 ) . Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1). Z=σ/n Xˉ−μ∼N(0,1).

对于给定的置信水平 1 − α 1-\alpha 1−α,存在 z α / 2 z_{\alpha/2} zα/2 使得 P ( − z α / 2 ≤ Z ≤ z α / 2 ) = 1 − α P(-z_{\alpha/2} \le Z \le z_{\alpha/2}) = 1-\alpha P(−zα/2≤Z≤zα/2)=1−α。于是
P ( X ˉ − z α / 2 σ n ≤ μ ≤ X ˉ + z α / 2 σ n ) = 1 − α . P\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha. P(Xˉ−zα/2n σ≤μ≤Xˉ+zα/2n σ)=1−α.

因此, μ \mu μ 的置信区间为:
( X ˉ − z α / 2 σ n , X ˉ + z α / 2 σ n ) . \left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}},\ \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right). (Xˉ−zα/2n σ, Xˉ+zα/2n σ).

例4 :某零件长度服从 N ( μ , 0.1 2 ) N(\mu, 0.1^2) N(μ,0.12),随机抽取 25 个,测得样本均值 x ˉ = 5.02 \bar{x}=5.02 xˉ=5.02 cm。求 μ \mu μ 的 95% 置信区间。查表得 z 0.025 = 1.96 z_{0.025}=1.96 z0.025=1.96,则区间为 5.02 ± 1.96 × 0.1 / 25 = 5.02 ± 0.0392 5.02 \pm 1.96 \times 0.1 / \sqrt{25} = 5.02 \pm 0.0392 5.02±1.96×0.1/25 =5.02±0.0392,即 ( 4.9808 , 5.0592 ) (4.9808, 5.0592) (4.9808,5.0592)。

情形2:方差 σ 2 \sigma^2 σ2 未知

当 σ 2 \sigma^2 σ2 未知时,用样本标准差 S 代替 σ \sigma σ,此时统计量
T = X ˉ − μ S / n ∼ t ( n − 1 ) , T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1), T=S/n Xˉ−μ∼t(n−1),

服从自由度为 n-1 的 t t t 分布。记 t α / 2 ( n − 1 ) t_{\alpha/2}(n-1) tα/2(n−1) 为 t t t 分布的上 α / 2 \alpha/2 α/2 分位数,则
P ( − t α / 2 ( n − 1 ) ≤ X ˉ − μ S / n ≤ t α / 2 ( n − 1 ) ) = 1 − α . P\left( -t_{\alpha/2}(n-1) \le \frac{\bar{X} - \mu}{S/\sqrt{n}} \le t_{\alpha/2}(n-1) \right) = 1-\alpha. P(−tα/2(n−1)≤S/n Xˉ−μ≤tα/2(n−1))=1−α.

因此 μ \mu μ 的置信区间为:
( X ˉ − t α / 2 ( n − 1 ) S n , X ˉ + t α / 2 ( n − 1 ) S n ) . \left( \bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}},\ \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}} \right). (Xˉ−tα/2(n−1)n S, Xˉ+tα/2(n−1)n S).

例5 :为估计某种电池的平均寿命,随机抽取 16 节电池,测得寿命(小时)为: 100 , 102 , 98 , 101 , 99 , 103 , 97 , 100 , 101 , 102 , 98 , 99 , 100 , 101 , 100 , 99 100, 102, 98, 101, 99, 103, 97, 100, 101, 102, 98, 99, 100, 101, 100, 99 100,102,98,101,99,103,97,100,101,102,98,99,100,101,100,99。计算得 x ˉ = 100.125 \bar{x}=100.125 xˉ=100.125, s ≈ 1.544 s \approx 1.544 s≈1.544。求 95% 置信区间。自由度 n − 1 = 15 n-1=15 n−1=15,查表 t 0.025 ( 15 ) = 2.131 t_{0.025}(15)=2.131 t0.025(15)=2.131,则区间为 100.125 ± 2.131 × 1.544 / 16 = 100.125 ± 0.823 100.125 \pm 2.131 \times 1.544/\sqrt{16} = 100.125 \pm 0.823 100.125±2.131×1.544/16 =100.125±0.823,即 ( 99.302 , 100.948 ) (99.302, 100.948) (99.302,100.948)。

2.3 两个正态总体均值差的置信区间(简单了解)

设 X 1 , ... , X n 1 ∼ N ( μ 1 , σ 1 2 ) X_1,\dots,X_{n_1} \sim N(\mu_1, \sigma_1^2) X1,...,Xn1∼N(μ1,σ12), Y 1 , ... , Y n 2 ∼ N ( μ 2 , σ 2 2 ) Y_1,\dots,Y_{n_2} \sim N(\mu_2, \sigma_2^2) Y1,...,Yn2∼N(μ2,σ22),两样本独立。我们关注 μ 1 − μ 2 \mu_1 - \mu_2 μ1−μ2。

情形1:两方差已知

X ˉ − Y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) . \bar{X} - \bar{Y} \sim N\left(\mu_1 - \mu_2,\ \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\right). Xˉ−Yˉ∼N(μ1−μ2, n1σ12+n2σ22).

构造枢轴量 Z = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) Z = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1) Z=n1σ12+n2σ22 (Xˉ−Yˉ)−(μ1−μ2)∼N(0,1),置信区间为:
X ˉ − Y ˉ ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 . \bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}. Xˉ−Yˉ±zα/2n1σ12+n2σ22 .

情形2:两方差未知但相等( σ 1 2 = σ 2 2 = σ 2 \sigma_1^2 = \sigma_2^2 = \sigma^2 σ12=σ22=σ2)

用合并方差 S p 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2} Sp2=n1+n2−2(n1−1)S12+(n2−1)S22,则
T = ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S p 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) . T = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1+n_2-2). T=Spn11+n21 (Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2).

置信区间为:
X ˉ − Y ˉ ± t α / 2 ( n 1 + n 2 − 2 ) ⋅ S p 1 n 1 + 1 n 2 . \bar{X} - \bar{Y} \pm t_{\alpha/2}(n_1+n_2-2) \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}. Xˉ−Yˉ±tα/2(n1+n2−2)⋅Spn11+n21 .

例6 :比较两种教学方法,A组 10 人,B组 10 人,成绩方差齐性,计算得 x ˉ A = 75 \bar{x}_A=75 xˉA=75, x ˉ B = 70 \bar{x}B=70 xˉB=70, S p = 8 S_p=8 Sp=8,则 95% 置信区间为 5 ± t 0.025 ( 18 ) × 8 1 / 10 + 1 / 10 = 5 ± 2.101 × 8 × 0.4472 ≈ 5 ± 7.52 5 \pm t{0.025}(18)\times 8\sqrt{1/10+1/10} = 5 \pm 2.101\times 8\times 0.4472 \approx 5 \pm 7.52 5±t0.025(18)×81/10+1/10 =5±2.101×8×0.4472≈5±7.52,即 ( − 2.52 , 12.52 ) (-2.52, 12.52) (−2.52,12.52)。因包含 0,不能认为有显著差异。

2.4 比例 p p p 的置信区间(大样本近似)

设总体服从伯努利分布 B ( 1 , p ) B(1,p) B(1,p),抽取 n n n 次独立试验,成功次数 X ∼ B ( n , p ) X \sim B(n,p) X∼B(n,p)。样本比例 p ^ = X / n \hat{p} = X/n p^=X/n。由中心极限定理,当 n n n 充分大时,
p ^ ≈ N ( p , p ( 1 − p ) n ) . \hat{p} \approx N\left(p,\ \frac{p(1-p)}{n}\right). p^≈N(p, np(1−p)).

用 p ^ \hat{p} p^ 代替 p ( 1 − p ) p(1-p) p(1−p) 中的 p p p,得到近似置信区间:
p ^ ± z α / 2 p ^ ( 1 − p ^ ) n . \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. p^±zα/2np^(1−p^) .

通常要求 n p ^ ≥ 5 n\hat{p} \ge 5 np^≥5 且 n ( 1 − p ^ ) ≥ 5 n(1-\hat{p}) \ge 5 n(1−p^)≥5 以保证近似精度。

例7 :在一项民意调查中,随机调查 1000 人,支持某项政策的比例为 0.55。求 95% 置信区间。 p ^ = 0.55 \hat{p}=0.55 p^=0.55, z 0.025 = 1.96 z_{0.025}=1.96 z0.025=1.96,标准误 0.55 × 0.45 / 1000 ≈ 0.0157 \sqrt{0.55\times 0.45/1000} \approx 0.0157 0.55×0.45/1000 ≈0.0157,区间为 0.55 ± 1.96 × 0.0157 = 0.55 ± 0.0308 0.55 \pm 1.96\times 0.0157 = 0.55 \pm 0.0308 0.55±1.96×0.0157=0.55±0.0308,即 ( 0.5192 , 0.5808 ) (0.5192, 0.5808) (0.5192,0.5808)。


3. 总结

  • 估计量的评价:无偏性(期望等于真值)、有效性(方差小)、一致性(大样本收敛),共同衡量了估计量的优劣。

  • 区间估计 :给出了参数的一个可能范围,并附以置信水平。我们重点学习了正态总体均值的置信区间(方差已知用 z z z 分布,未知用 t t t 分布)、两正态总体均值差的区间以及比例 p p p 的大样本区间。

上一章 机器学习概率论与统计学--(9)统计学:参数估计

相关推荐
wubba lubba dub dub75010 小时前
第四十九周学习周报
人工智能·算法·机器学习
装不满的克莱因瓶10 小时前
学习使用 Python 机器学习工具 sklearn
人工智能·python·学习·机器学习·ai·agent·智能体
Omics Pro11 小时前
3种蛋白结构输入方式!已申报欧洲发明专利
数据库·人工智能·python·机器学习·plotly
Omics Pro12 小时前
「自兹以往」动物肠道微生物组
数据库·人工智能·机器学习·语言模型·自然语言处理
oddsand112 小时前
pgvector 三大相似度算法
人工智能·算法·机器学习
落羽的落羽14 小时前
【项目】JsonRpc框架——开发实现1(细节功能、字段定义、抽象层、具象层)
linux·服务器·网络·c++·人工智能·算法·机器学习
keykey6.15 小时前
卷积神经网络(CNN):让AI学会“看“
开发语言·人工智能·深度学习·机器学习
升鲜宝供应链及收银系统源代码服务15 小时前
升鲜宝AI助手 E-R 图与操作说明书(三)---升鲜宝生鲜配送供应链管理系统源代码服务
大数据·人工智能·机器学习·生鲜供应链源代码·供应链源代码出售·生鲜配送源代码服务·门店连锁系统源代码
AI科技星16 小时前
精细结构常数α的多维度物理比值特性及空间螺旋模型研究
人工智能·线性代数·架构·概率论·学习方法
keykey6.16 小时前
用 PyTorch 训练图像分类器:完整实战
开发语言·人工智能·深度学习·机器学习