【考研数学】概率论与数理统计 —— 第七章 | 参数估计（1，基本概念及点估计法）

文章目录

引言
一、参数估计的概念
二、参数的点估计
- [2.1 矩估计法](#2.1 矩估计法)
- [2.2 最大似然估计法](#2.2 最大似然估计法)
写在最后

引言

我们之前学了那么多分布，如正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)，泊松分布 P ( λ ) P(\lambda) P(λ) 等等，都是在已知 μ , σ , λ \mu,\sigma,\lambda μ,σ,λ 的情况下。那这些值是怎么来的呢？参数估计便可以帮助我们回答这一问题。

一、参数估计的概念

所谓参数估计，即总体 X X X 的分布已知，但其中分布中含有未知参数 θ \theta θ（或多个参数），从总体 X X X 中取简单随机样本 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) ，且 ( x 1 , x 2 , ⋯ , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,⋯,xn) 为样本观察值，利用样本对参数进行估计，称为参数估计。参数估计可分为点估计 和区间估计。

二、参数的点估计

设总体 X X X 的分布已知，但其中分布中含有未知参数，从总体 X X X 中取简单随机样本 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) ，且 ( x 1 , x 2 , ⋯ , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,⋯,xn) 为其观察值。若用统计量 θ ^ ( X 1 , X 2 , ⋯ , X n ) \widehat{\theta}(X_1,X_2,\cdots,X_n) θ (X1,X2,⋯,Xn) 估计参数 θ \theta θ ，称其为参数 θ \theta θ 的估计量（本质上是一个随机变量），将样本观察值代入，称 θ ^ ( x 1 , x 2 , ⋯ , x n ) \widehat{\theta}(x_1,x_2,\cdots,x_n) θ (x1,x2,⋯,xn) 为参数 θ \theta θ 的估计值（本质上是一个常数）。

常见的点估计法有矩估计法 和最大似然估计法。

2.1 矩估计法

1. 矩估计的基本思想

设总体为 X X X， ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 为来自总体的简单随机样本，称

μ k = E ( X k ) ( k = 1 , 2 , ⋯ ) \mu_k=E(X^k)(k=1,2,\cdots) μk=E(Xk)(k=1,2,⋯) 为总体 X X X 的 k k k 阶原点矩；

A k = 1 n ∑ X i k ( k = 1 , 2 , ⋯ ) A_k=\frac{1}{n}\sum X_i^k(k=1,2,\cdots) Ak=n1∑Xik(k=1,2,⋯) 为样本的 k k k 阶原点矩，特别地， A 1 = X ‾ A_1=\overline{X} A1=X ；

B k = 1 n ∑ ( X i − X ‾ ) k ( k = 1 , 2 , ⋯ ) B_k=\frac{1}{n}\sum (X_i-\overline{X})^k(k=1,2,\cdots) Bk=n1∑(Xi−X)k(k=1,2,⋯) 为样本的 k k k 阶中心距。

矩估计法的依据就是大数定律 ，由独立同分布的大数定律，有 A k A_k Ak 依概率收敛于 μ k ( k = 1 , 2 , ⋯ ) . \mu_k(k=1,2,\cdots). μk(k=1,2,⋯).

2. 矩估计法的基本步骤

C a e s I : Caes\space I: Caes I: 含有一个参数 θ \theta θ

第一步，求 E ( X ) E(X) E(X) 或 E ( X 2 ) E(X^2) E(X2) ；

第二步，令 E ( X ) = X ‾ E(X)=\overline{X} E(X)=X 或 E ( X 2 ) = A 2 E(X^2)=A_2 E(X2)=A2 ，解出 θ \theta θ 的表达式，将观察值代入即得到估计值。

C a s e I I : Case\space II: Case II: 含有两个参数 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2

第一步，求 E ( X ) E(X) E(X)， E ( X 2 ) E(X^2) E(X2) ；

第二步，令 E ( X ) = X ‾ , E ( X 2 ) = A 2 , D ( X ) = B 2 E(X)=\overline{X},E(X^2)=A_2,D(X)=B_2 E(X)=X,E(X2)=A2,D(X)=B2 ，解出 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2 的表达式，将观察值代入即得到估计值。

【例】设总体 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2) ， ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 为来自总体的简单随机样本。（1）设 μ = 2 \mu=2 μ=2 ，求参数 σ 2 \sigma^2 σ2 的矩估计量；（2）设 μ \mu μ 未知，求参数 σ 2 \sigma^2 σ2 的矩估计量。

解：（1） E ( X ) = 2 , E ( X 2 ) = D ( X ) + [ E ( X ) ] 2 = σ 2 + 4 E(X)=2,E(X^2)=D(X)+[E(X)]^2=\sigma^2+4 E(X)=2,E(X2)=D(X)+[E(X)]2=σ2+4 。令 σ 2 + 4 = A 2 = 1 n ∑ X i 2 \sigma^2+4=A_2=\frac{1}{n}\sum X_i^2 σ2+4=A2=n1∑Xi2 得 σ ^ 2 = 1 n ∑ i = 1 n X i 2 − 4. \widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^nX_i^2-4. σ 2=n1i=1∑nXi2−4. （2） E ( X ) = μ , E ( X 2 ) = σ 2 + μ 2 E(X)=\mu,E(X^2)=\sigma^2+\mu^2 E(X)=μ,E(X2)=σ2+μ2 。令 E ( X ) = X ‾ , E ( X 2 ) = A 2 E(X)=\overline{X},E(X^2)=A_2 E(X)=X,E(X2)=A2 ，可计算得到矩估计量： σ ^ 2 = 1 n ∑ i = 1 n X i 2 − X ‾ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 . \widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^nX_i^2-\overline{X}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2. σ 2=n1i=1∑nXi2−X2=n1i=1∑n(Xi−X)2. 对于第二问结果的变换，我们可以把 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 n1∑i=1n(Xi−X)2 拆开，写成 1 n ∑ i = 1 n ( X i 2 − 2 X i X ‾ + X ‾ 2 ) = 1 n ( ∑ i = 1 n X i 2 − 2 X ‾ ∑ i = 1 n X i + n X ‾ 2 ) = 1 n ∑ i = 1 n X i 2 − X ‾ 2 . \frac{1}{n}\sum_{i=1}^n(X_i^2-2X_i\overline{X}+\overline{X}^2)=\frac{1}{n}\bigg(\sum_{i=1}^nX_i^2-2\overline{X}\sum_{i=1}^nX_i+n\overline{X}^2\bigg)=\frac{1}{n}\sum_{i=1}^nX_i^2-\overline{X}^2. n1i=1∑n(Xi2−2XiX+X2)=n1(i=1∑nXi2−2Xi=1∑nXi+nX2)=n1i=1∑nXi2−X2.

2.2 最大似然估计法

设总体为 X X X， ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 为来自总体的简单随机样本， ( x 1 , x 2 , ⋯ , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,⋯,xn) 为其观察值。样本 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 取 ( x 1 , x 2 , ⋯ , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,⋯,xn) 的概率成为似然函数，记为 L ( θ ) L(\theta) L(θ) 或 L ( θ 1 , θ 2 ) L(\theta_1,\theta_2) L(θ1,θ2) 。

C a s e I : \pmb{Case\space I:} Case I: 总体 X X X 为离散型（分布律已知，但未知参数）

第一步：似然函数
L = P { X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n } = P { X 1 = x 1 } P { X 2 = x 2 } ⋯ P { X n = x n } = P { X = x 1 } P { X = x 2 } ⋯ P { X = x n } L=P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=P\{X_1=x_1\}P\{X_2=x_2\}\cdots P\{X_n=x_n\}=P\{X=x_1\}P\{X=x_2\}\cdots P\{X=x_n\} L=P{X1=x1,X2=x2,⋯,Xn=xn}=P{X1=x1}P{X2=x2}⋯P{Xn=xn}=P{X=x1}P{X=x2}⋯P{X=xn} ；

第二步：对似然函数 L L L 两边取对数 ln ⁡ L \ln L lnL ；

第三步： (1) 若 ln ⁡ L \ln L lnL 只含有一个参数 θ \theta θ ，令 d ( ln ⁡ L ) / d θ = 0 d(\ln L)/d\theta=0 d(lnL)/dθ=0 ，解出驻点 θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) \widehat{\theta}=\widehat{\theta}(x_1,x_2,\cdots,x_n) θ =θ (x1,x2,⋯,xn)（估计值），从而可以得到最大似然估计量 θ ^ = θ ^ ( X 1 , X 2 , ⋯ , X n ) \widehat{\theta}=\widehat{\theta}(X_1,X_2,\cdots,X_n) θ =θ (X1,X2,⋯,Xn) ；

（2）若 ln ⁡ L \ln L lnL 含有两个参数 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2 ，令 ∂ ln ⁡ L / ∂ θ 1 = 0 , ∂ ln ⁡ L / ∂ θ 2 = 0 \partial \ln L/\partial \theta_1=0,\partial \ln L/\partial \theta_2=0 ∂lnL/∂θ1=0,∂lnL/∂θ2=0 ，解出驻点即可得到估计值。

C a s e I I : \pmb{Case\space II:} Case II: 总体 X X X 为连续型 （概率密度 f ( x ) f(x) f(x) 已知，但含有未知参数）

第一步：似然函数 L = f ( x 1 ) f ( x 2 ) ⋯ f ( x n ) ; L=f(x_1)f(x_2)\cdots f(x_n); L=f(x1)f(x2)⋯f(xn); 其余步骤同上。

【例】设总体 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2) ， ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 为来自总体的简单随机样本。设 μ = 2 \mu=2 μ=2 ，求参数 σ 2 \sigma^2 σ2 的矩估计量。

解：似然函数为 L = f ( x 1 ) f ( x 2 ) ⋯ f ( x n ) = ( 1 2 π ) n ⋅ ( σ 2 ) − n 2 E X P { − 1 2 σ 2 ∑ i = 1 n ( x i − 2 ) 2 } . L=f(x_1)f(x_2)\cdots f(x_n)=\big(\frac{1}{\sqrt{2\pi}}\big)^n\cdot (\sigma^2)^{-\frac{n}{2}}EXP\big\{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-2)^2\big\}. L=f(x1)f(x2)⋯f(xn)=(2π 1)n⋅(σ2)−2nEXP{−2σ21i=1∑n(xi−2)2}. ln ⁡ L = n ln ⁡ ( 1 2 π ) − n 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ i = 1 n ( x i − 2 ) 2 . \ln{L}=n\ln\big(\frac{1}{\sqrt{2\pi}}\big)-\frac{n}{2}\ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-2)^2. lnL=nln(2π 1)−2nlnσ2−2σ21i=1∑n(xi−2)2. 令 d ln ⁡ L d ( σ 2 ) = − n 2 1 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − 2 ) 2 = 0 \frac{d\ln L}{d(\sigma^2)}=-\frac{n}{2}\frac{1}{\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-2)^2=0 d(σ2)dlnL=−2nσ21+2σ41i=1∑n(xi−2)2=0 可解得 σ 2 \sigma^2 σ2 的最大似然估计量为： σ ^ 2 = 1 n ∑ i = 1 n ( x i − 2 ) 2 . \widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(x_i-2)^2. σ 2=n1i=1∑n(xi−2)2. 有时可能会出现对数似然函数求导后，导函数恒不等于0，这样就没有驻点了。那此时我们只能根据定义去进行估计了。构造似然函数的目的就是找到一个 θ \theta θ ，使得这个似然函数最大。

而对一个函数求最大，我们根据高数的知识，不只有求导数一种办法。如果出现导数不为 0 的情况，不妨设求导后，导数恒小于 0 ，那么似然函数就是参数 θ \theta θ 的减函数，我们只需让 θ \theta θ 尽可能小就是。如下面的例子。

【例】 设总体 X X X 的密度函数为 f ( x ) = { 2 x / θ 2 0 < x < θ 0 e l s e f(x)=\begin{cases} 2x/\theta^2 & 0<x<\theta \\ 0 &else\end{cases} f(x)={2x/θ200<x<θelse ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn) 为来自总体 X X X 的简单随机样本，求 θ \theta θ 的最大似然估计量。

解：构造似然函数 L ( θ ) = f ( x 1 ) f ( x 2 ) ⋯ f ( x n ) = 2 n θ 2 n x 1 x 2 ⋯ x n ( 0 < x i < θ , i = 1 , 2 , ⋯ , n ) . d ln ⁡ L d θ = − 2 n θ < 0. L(\theta)=f(x_1)f(x_2)\cdots f(x_n)=\frac{2^n}{\theta^{2n}}x_1x_2\cdots x_n(0<x_i<\theta,i=1,2,\cdots,n).\\ \frac{d\ln L}{d\theta}=-\frac{2n}{\theta}<0. L(θ)=f(x1)f(x2)⋯f(xn)=θ2n2nx1x2⋯xn(0<xi<θ,i=1,2,⋯,n).dθdlnL=−θ2n<0. 此时我们需让 θ \theta θ 尽可能小，但根据条件， θ \theta θ 又必须大于所有的观测值 x i ( i = 1 , 2 , ⋯ ) x_i(i=1,2,\cdots) xi(i=1,2,⋯) ，因此我们的 θ ^ \widehat{\theta} θ 可取 max ⁡ { x 1 , x 2 , ⋯ , x n } \max\{x_1,x_2,\cdots,x_n\} max{x1,x2,⋯,xn} ，即可使得似然函数最大，那相应的估计量为 θ ^ = max ⁡ { X 1 , X 2 , ⋯ , X n } . \widehat{\theta}=\max\{X_1,X_2,\cdots,X_n\}. θ =max{X1,X2,⋯,Xn}.

写在最后

以上便是用点估计法对总体分布的参数进行近似的方法，既然只是估计，那肯定会有误差，到底我们这样估计好不好呢，下一篇文章我们来学习参数估计量的评价标准。