参数估计是统计推断的核心内容。当我们面对一个总体,知道其分布类型(例如正态分布、二项分布等),但其中的某些参数(如均值、方差)未知时,就需要利用样本数据对这些参数进行估计。本讲将系统讲解点估计 的基本概念,并详细介绍两种最常用的点估计方法:矩估计 和最大似然估计。
1. 点估计的概念:估计量与估计值
在统计学中,我们通常把从总体中随机抽取的样本记为 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn。样本是随机变量,其具体取值会因随机性而变化。
1.1 估计量
设总体分布依赖于未知参数 θ \theta θ(可以是标量或向量)。我们构造一个仅依赖于样本的统计量
θ ^ = g ( X 1 , X 2 , ... , X n ) \hat{\theta} = g(X_1, X_2, \dots, X_n) θ^=g(X1,X2,...,Xn)
作为 θ \theta θ 的估计量。由于样本是随机的,估计量也是一个随机变量,其分布由抽样分布决定。
1.2 估计值
当我们进行了一次具体的抽样,得到样本观测值 x 1 , x 2 , ... , x n x_1, x_2, \dots, x_n x1,x2,...,xn,代入估计量后得到具体的数值
θ ^ obs = g ( x 1 , x 2 , ... , x n ) , \hat{\theta}_{\text{obs}} = g(x_1, x_2, \dots, x_n), θ^obs=g(x1,x2,...,xn),
这个数值称为 θ \theta θ 的估计值。
简单来说:估计量是随机变量,估计值是它的一个具体实现。
例1 :设某地成年男性的身高服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),其中 μ \mu μ 未知。我们随机抽取 n n n 名男性,测量身高 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn。取估计量 μ ^ = X ˉ = 1 n ∑ i = 1 n X i \hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i μ^=Xˉ=n1∑i=1nXi。若实际测得的数据为 175.2 , 168.5 , 180.1 , 172.3 , 178.6 175.2, 168.5, 180.1, 172.3, 178.6 175.2,168.5,180.1,172.3,178.6,则估计值 μ ^ = 175.2 + 168.5 + 180.1 + 172.3 + 178.6 5 = 174.94 \hat{\mu} = \frac{175.2+168.5+180.1+172.3+178.6}{5} = 174.94 μ^=5175.2+168.5+180.1+172.3+178.6=174.94 厘米。
2. 矩估计
2.1 基本思想
矩估计(Method of Moments)由英国统计学家卡尔·皮尔逊在19世纪末提出。其核心思想是:用样本矩代替总体矩,从而建立方程求解未知参数。
- 总体矩 :总体 X X X 的 k k k 阶原点矩定义为 μ k = E [ X k ] \mu_k = E[X^k] μk=E[Xk],它是未知参数 θ \theta θ 的函数。
- 样本矩 :样本的 k k k 阶原点矩定义为 A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n}\sum_{i=1}^n X_i^k Ak=n1∑i=1nXik,它是样本的函数。
根据大数定律,当样本量 n n n 足够大时,样本矩 A k A_k Ak 依概率收敛于总体矩 μ k \mu_k μk。因此,我们可以令
μ k ( θ ) = A k , k = 1 , 2 , ... , m , \mu_k(\theta) = A_k, \quad k=1,2,\dots,m, μk(θ)=Ak,k=1,2,...,m,
其中 m m m 是未知参数的个数。解这个方程组,得到的解 θ ^ \hat{\theta} θ^ 就是矩估计量。
2.2 矩估计的一般步骤
- 写出总体分布,确定未知参数 θ = ( θ 1 , ... , θ m ) \theta = (\theta_1,\dots,\theta_m) θ=(θ1,...,θm)。
- 计算总体的前 m m m 阶原点矩 μ k = E [ X k ] \mu_k = E[X^k] μk=E[Xk],并将其表示为 θ \theta θ 的函数。
- 计算相应的样本原点矩 A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n}\sum_{i=1}^n X_i^k Ak=n1∑i=1nXik。
- 建立方程组 μ k ( θ ) = A k \mu_k(\theta) = A_k μk(θ)=Ak( k = 1 , ... , m k=1,\dots,m k=1,...,m),并解出 θ 1 , ... , θ m \theta_1,\dots,\theta_m θ1,...,θm。
- 所得解即为参数的矩估计量。
2.3 例子
例2:泊松分布的矩估计
设总体 X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) X∼Poisson(λ),参数 λ > 0 \lambda > 0 λ>0 未知。总体一阶矩:
μ 1 = E [ X ] = λ . \mu_1 = E[X] = \lambda. μ1=E[X]=λ.
样本一阶矩: A 1 = X ˉ = 1 n ∑ i = 1 n X i A_1 = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i A1=Xˉ=n1∑i=1nXi。令 λ = X ˉ \lambda = \bar{X} λ=Xˉ,解得矩估计量为
λ ^ = X ˉ . \hat{\lambda} = \bar{X}. λ^=Xˉ.
注:这里只有一个参数,因此只用一阶矩即可。
例3:正态分布的矩估计
设总体 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2),未知参数 θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) 有两个。我们需要用到前两阶原点矩:
μ 1 = E [ X ] = μ , \mu_1 = E[X] = \mu, μ1=E[X]=μ,
μ 2 = E [ X 2 ] = Var ( X ) + ( E [ X ] ) 2 = σ 2 + μ 2 . \mu_2 = E[X^2] = \operatorname{Var}(X) + (E[X])^2 = \sigma^2 + \mu^2. μ2=E[X2]=Var(X)+(E[X])2=σ2+μ2.
样本矩:
A 1 = X ˉ , A 2 = 1 n ∑ i = 1 n X i 2 . A_1 = \bar{X}, \quad A_2 = \frac{1}{n}\sum_{i=1}^n X_i^2. A1=Xˉ,A2=n1i=1∑nXi2.
建立方程组:
{ μ = X ˉ , σ 2 + μ 2 = 1 n ∑ X i 2 . \begin{cases} \mu = \bar{X},\\ \sigma^2 + \mu^2 = \frac{1}{n}\sum X_i^2. \end{cases} {μ=Xˉ,σ2+μ2=n1∑Xi2.
解之得:
μ ^ = X ˉ , σ ^ 2 = 1 n ∑ X i 2 − X ˉ 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 . \hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum X_i^2 - \bar{X}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2. μ^=Xˉ,σ^2=n1∑Xi2−Xˉ2=n1i=1∑n(Xi−Xˉ)2.
注意:这里 σ ^ 2 \hat{\sigma}^2 σ^2 的分母是 n n n,而不是 n − 1 n-1 n−1,因此它是有偏的(后面会讨论)。
例4:均匀分布的矩估计
设总体 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b),参数 a < b a < b a<b 均未知。总体一阶矩和二阶矩:
μ 1 = a + b 2 , μ 2 = E [ X 2 ] = a 2 + a b + b 2 3 . \mu_1 = \frac{a+b}{2}, \quad \mu_2 = E[X^2] = \frac{a^2+ab+b^2}{3}. μ1=2a+b,μ2=E[X2]=3a2+ab+b2.
样本矩 A 1 = X ˉ A_1=\bar{X} A1=Xˉ, A 2 = 1 n ∑ X i 2 A_2=\frac{1}{n}\sum X_i^2 A2=n1∑Xi2。解方程组:
a + b 2 = X ˉ , a 2 + a b + b 2 3 = 1 n ∑ X i 2 . \frac{a+b}{2} = \bar{X}, \quad \frac{a^2+ab+b^2}{3} = \frac{1}{n}\sum X_i^2. 2a+b=Xˉ,3a2+ab+b2=n1∑Xi2.
令 S 2 = 1 n ∑ ( X i − X ˉ ) 2 = A 2 − A 1 2 S^2 = \frac{1}{n}\sum (X_i - \bar{X})^2 = A_2 - A_1^2 S2=n1∑(Xi−Xˉ)2=A2−A12,则可得:
a ^ = X ˉ − 3 S , b ^ = X ˉ + 3 S . \hat{a} = \bar{X} - \sqrt{3}\,S, \quad \hat{b} = \bar{X} + \sqrt{3}\,S. a^=Xˉ−3 S,b^=Xˉ+3 S.
矩估计在均匀分布中可能产生 a ^ > min ( X i ) \hat{a} > \min(X_i) a^>min(Xi) 或 b ^ < max ( X i ) \hat{b} < \max(X_i) b^<max(Xi) 的情况,此时需要修正,但矩估计的基本形式如上。
3. 最大似然估计(MLE)
3.1 基本思想
最大似然估计(Maximum Likelihood Estimation, MLE)是另一种常用且理论性质优良的估计方法。其核心思想是:在已获得样本观测值 x 1 , ... , x n x_1,\dots,x_n x1,...,xn 的条件下,选择使得该样本出现的概率(或概率密度)最大的参数值作为估计 。也就是说,我们寻找使似然函数最大的 θ \theta θ。
3.2 似然函数与步骤
设总体分布的概率函数为 f ( x ; θ ) f(x;\theta) f(x;θ)(离散时是概率质量函数,连续时是概率密度函数)。给定样本 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn,定义似然函数 为
L ( θ ) = ∏ i = 1 n f ( X i ; θ ) . L(\theta) = \prod_{i=1}^n f(X_i;\theta). L(θ)=i=1∏nf(Xi;θ).
由于对数函数是单调增的,最大化 L ( θ ) L(\theta) L(θ) 等价于最大化对数似然函数:
ℓ ( θ ) = ln L ( θ ) = ∑ i = 1 n ln f ( X i ; θ ) . \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(X_i;\theta). ℓ(θ)=lnL(θ)=i=1∑nlnf(Xi;θ).
最大似然估计的步骤:
- 写出似然函数 L ( θ ) L(\theta) L(θ)。
- 取对数得到 ℓ ( θ ) \ell(\theta) ℓ(θ)。
- 对 θ \theta θ 求导(若 θ \theta θ 为向量则求偏导),令导数为零,得到似然方程。
- 解似然方程得到 θ ^ \hat{\theta} θ^。
- 验证二阶导数小于零(或海森矩阵负定)以确认是最大值。
3.3 常见分布的 MLE 推导
例5:伯努利分布
设 X 1 , ... , X n ∼ i.i.d. Bernoulli ( p ) X_1,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} \text{Bernoulli}(p) X1,...,Xn∼i.i.d.Bernoulli(p),概率质量函数为
f ( x ; p ) = p x ( 1 − p ) 1 − x , x = 0 , 1. f(x;p) = p^x (1-p)^{1-x}, \quad x=0,1. f(x;p)=px(1−p)1−x,x=0,1.
似然函数:
L ( p ) = ∏ i = 1 n p X i ( 1 − p ) 1 − X i = p ∑ X i ( 1 − p ) n − ∑ X i . L(p) = \prod_{i=1}^n p^{X_i} (1-p)^{1-X_i} = p^{\sum X_i} (1-p)^{n - \sum X_i}. L(p)=i=1∏npXi(1−p)1−Xi=p∑Xi(1−p)n−∑Xi.
对数似然:
ℓ ( p ) = ( ∑ i = 1 n X i ) ln p + ( n − ∑ i = 1 n X i ) ln ( 1 − p ) . \ell(p) = \left(\sum_{i=1}^n X_i\right) \ln p + \left(n - \sum_{i=1}^n X_i\right) \ln(1-p). ℓ(p)=(i=1∑nXi)lnp+(n−i=1∑nXi)ln(1−p).
对 p p p 求导:
d ℓ d p = ∑ X i p − n − ∑ X i 1 − p . \frac{d\ell}{dp} = \frac{\sum X_i}{p} - \frac{n - \sum X_i}{1-p}. dpdℓ=p∑Xi−1−pn−∑Xi.
令导数为零:
∑ X i p = n − ∑ X i 1 − p ⟹ ( 1 − p ) ∑ X i = p ( n − ∑ X i ) . \frac{\sum X_i}{p} = \frac{n - \sum X_i}{1-p} \quad\Longrightarrow\quad (1-p)\sum X_i = p(n - \sum X_i). p∑Xi=1−pn−∑Xi⟹(1−p)∑Xi=p(n−∑Xi).
整理得:
∑ X i − p ∑ X i = n p − p ∑ X i ⟹ ∑ X i = n p . \sum X_i - p\sum X_i = np - p\sum X_i \quad\Longrightarrow\quad \sum X_i = np. ∑Xi−p∑Xi=np−p∑Xi⟹∑Xi=np.
因此:
p ^ = 1 n ∑ i = 1 n X i = X ˉ . \hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}. p^=n1i=1∑nXi=Xˉ.
二阶导数 d 2 ℓ d p 2 = − ∑ X i p 2 − n − ∑ X i ( 1 − p ) 2 < 0 \frac{d^2\ell}{dp^2} = -\frac{\sum X_i}{p^2} - \frac{n-\sum X_i}{(1-p)^2} < 0 dp2d2ℓ=−p2∑Xi−(1−p)2n−∑Xi<0,确为最大值。
例6:正态分布(方差已知,估计均值)
设 X i ∼ N ( μ , σ 0 2 ) X_i \sim N(\mu, \sigma_0^2) Xi∼N(μ,σ02),其中 σ 0 2 \sigma_0^2 σ02 已知, μ \mu μ 未知。概率密度:
f ( x ; μ ) = 1 2 π σ 0 exp ( − ( x − μ ) 2 2 σ 0 2 ) . f(x;\mu) = \frac{1}{\sqrt{2\pi}\sigma_0} \exp\left(-\frac{(x-\mu)^2}{2\sigma_0^2}\right). f(x;μ)=2π σ01exp(−2σ02(x−μ)2).
似然函数:
L ( μ ) = ∏ i = 1 n 1 2 π σ 0 exp ( − ( X i − μ ) 2 2 σ 0 2 ) = ( 2 π σ 0 2 ) − n / 2 exp ( − 1 2 σ 0 2 ∑ i = 1 n ( X i − μ ) 2 ) . L(\mu) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_0} \exp\left(-\frac{(X_i-\mu)^2}{2\sigma_0^2}\right) = (2\pi\sigma_0^2)^{-n/2} \exp\left(-\frac{1}{2\sigma_0^2}\sum_{i=1}^n (X_i-\mu)^2\right). L(μ)=i=1∏n2π σ01exp(−2σ02(Xi−μ)2)=(2πσ02)−n/2exp(−2σ021i=1∑n(Xi−μ)2).
对数似然:
ℓ ( μ ) = − n 2 ln ( 2 π σ 0 2 ) − 1 2 σ 0 2 ∑ i = 1 n ( X i − μ ) 2 . \ell(\mu) = -\frac{n}{2}\ln(2\pi\sigma_0^2) - \frac{1}{2\sigma_0^2}\sum_{i=1}^n (X_i-\mu)^2. ℓ(μ)=−2nln(2πσ02)−2σ021i=1∑n(Xi−μ)2.
对 μ \mu μ 求导:
d ℓ d μ = − 1 2 σ 0 2 ⋅ ( − 2 ) ∑ i = 1 n ( X i − μ ) = 1 σ 0 2 ∑ i = 1 n ( X i − μ ) . \frac{d\ell}{d\mu} = -\frac{1}{2\sigma_0^2} \cdot (-2)\sum_{i=1}^n (X_i-\mu) = \frac{1}{\sigma_0^2}\sum_{i=1}^n (X_i-\mu). dμdℓ=−2σ021⋅(−2)i=1∑n(Xi−μ)=σ021i=1∑n(Xi−μ).
令导数为零:
∑ i = 1 n ( X i − μ ) = 0 ⟹ ∑ X i − n μ = 0 , \sum_{i=1}^n (X_i-\mu) = 0 \quad\Longrightarrow\quad \sum X_i - n\mu = 0, i=1∑n(Xi−μ)=0⟹∑Xi−nμ=0,
解得:
μ ^ = 1 n ∑ i = 1 n X i = X ˉ . \hat{\mu} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}. μ^=n1i=1∑nXi=Xˉ.
例7:正态分布(均值和方差均未知)
设 X i ∼ i.i.d. N ( μ , σ 2 ) X_i \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2) Xi∼i.i.d.N(μ,σ2), θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) 均未知。概率密度:
f ( x ; μ , σ 2 ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) . f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). f(x;μ,σ2)=2π σ1exp(−2σ2(x−μ)2).
似然函数:
L ( μ , σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 ) . L(\mu,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2\right). L(μ,σ2)=(2πσ2)−n/2exp(−2σ21i=1∑n(Xi−μ)2).
对数似然:
ℓ ( μ , σ 2 ) = − n 2 ln ( 2 π ) − n 2 ln σ 2 − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 . \ell(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2. ℓ(μ,σ2)=−2nln(2π)−2nlnσ2−2σ21i=1∑n(Xi−μ)2.
先对 μ \mu μ 求偏导 :
∂ ℓ ∂ μ = − 1 2 σ 2 ⋅ ( − 2 ) ∑ i = 1 n ( X i − μ ) = 1 σ 2 ∑ i = 1 n ( X i − μ ) . \frac{\partial \ell}{\partial \mu} = -\frac{1}{2\sigma^2} \cdot (-2)\sum_{i=1}^n (X_i-\mu) = \frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu). ∂μ∂ℓ=−2σ21⋅(−2)i=1∑n(Xi−μ)=σ21i=1∑n(Xi−μ).
令其为零,得 ∑ X i − n μ = 0 \sum X_i - n\mu = 0 ∑Xi−nμ=0,故
μ ^ = X ˉ . \hat{\mu} = \bar{X}. μ^=Xˉ.
再对 σ 2 \sigma^2 σ2 求偏导 :令 τ = σ 2 \tau = \sigma^2 τ=σ2,则
ℓ = − n 2 ln ( 2 π ) − n 2 ln τ − 1 2 τ ∑ ( X i − μ ) 2 . \ell = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\tau - \frac{1}{2\tau}\sum (X_i-\mu)^2. ℓ=−2nln(2π)−2nlnτ−2τ1∑(Xi−μ)2.
∂ ℓ ∂ τ = − n 2 τ + 1 2 τ 2 ∑ ( X i − μ ) 2 . \frac{\partial \ell}{\partial \tau} = -\frac{n}{2\tau} + \frac{1}{2\tau^2}\sum (X_i-\mu)^2. ∂τ∂ℓ=−2τn+2τ21∑(Xi−μ)2.
将 μ = X ˉ \mu = \bar{X} μ=Xˉ 代入,令导数为零:
− n 2 τ + 1 2 τ 2 ∑ ( X i − X ˉ ) 2 = 0 ⟹ 1 τ 2 ∑ ( X i − X ˉ ) 2 = n τ . -\frac{n}{2\tau} + \frac{1}{2\tau^2}\sum (X_i-\bar{X})^2 = 0 \quad\Longrightarrow\quad \frac{1}{\tau^2}\sum (X_i-\bar{X})^2 = \frac{n}{\tau}. −2τn+2τ21∑(Xi−Xˉ)2=0⟹τ21∑(Xi−Xˉ)2=τn.
两边乘以 τ 2 \tau^2 τ2 得:
∑ ( X i − X ˉ ) 2 = n τ ⟹ τ = 1 n ∑ ( X i − X ˉ ) 2 . \sum (X_i-\bar{X})^2 = n\tau \quad\Longrightarrow\quad \tau = \frac{1}{n}\sum (X_i-\bar{X})^2. ∑(Xi−Xˉ)2=nτ⟹τ=n1∑(Xi−Xˉ)2.
因此:
σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 . \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2. σ^2=n1i=1∑n(Xi−Xˉ)2.
注意:这个估计量是有偏的,其期望为 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 nn−1σ2,但在 MLE 框架下它仍是最优的(在某种意义下)。实际中常用无偏版本 S 2 = 1 n − 1 ∑ ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum (X_i-\bar{X})^2 S2=n−11∑(Xi−Xˉ)2 作为方差估计。
4. 总结
- 点估计是用一个数值(估计量)来估计未知参数。估计量是样本的函数(随机变量),估计值是具体抽样后得到的数值。
- 矩估计:用样本矩代替总体矩,建立方程组求解。方法简单,但有时效率较低,且可能不唯一。
- 最大似然估计:最大化似然函数,具有渐近无偏性、有效性和一致性,是应用最广泛的估计方法。