极大似然估计

最大似然估计法

最大似然估计又称极大似然估计，是一种利用给定样本观测值来评估模型参数的方法，其基本原理为：利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值。

分两种情况介绍最大似然估计的方法和步骤。

离散型总体

设离散型总体X的分布律为
P ( X = x ) = p ( x ; θ ) , P(X=x) = p(x; \theta), P(X=x)=p(x;θ),

其中 θ ∈ Θ \theta \in \Theta θ∈Θ为未知参数， Θ \Theta Θ为 θ \theta θ的所有可能取值范围（称为参数空间），则对于给定的样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn，样本的联合分布律为
P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ) = ∏ i = 1 n p ( x i ; θ ) . P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) = \prod_{i=1}^{n} p(x_i; \theta). P(X1=x1,X2=x2,⋯,Xn=xn)=i=1∏np(xi;θ).

称 L ( θ ) L(\theta) L(θ)为似然函数，它是未知参数 θ \theta θ 的函数。

连续型总体

设连续型总体 X X X的概率密度函数为 f ( x ; θ ) f(x; \theta) f(x;θ)，其中 θ ∈ Θ \theta \in \Theta θ∈Θ 为未知参数， Θ \Theta Θ 为 θ \theta θ 的所有可能取值范围（称为参数空间），则对于给定的样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn，样本的联合概率密度为 ∏ i = 1 n f ( x i ; θ ) \prod_{i=1}^{n} f(x_i; \theta) ∏i=1nf(xi;θ)，从而随机变量 X i X_i Xi落在点 x i x_i xi的邻域（其半径为 Δ x i \Delta x_i Δxi）内的概率可近似为
∏ i = 1 n f ( x i ; θ ) Δ x i . \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i. i=1∏nf(xi;θ)Δxi.

当 x i ( i = 1 , 2 , ⋯ , n ) x_i (i=1,2,\cdots,n) xi(i=1,2,⋯,n)取定时，它是 θ \theta θ 的函数，记为 L ( θ ) L(\theta) L(θ)，称
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) Δ x i , θ ∈ Θ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i, \theta \in \Theta L(θ)=i=1∏nf(xi;θ)Δxi,θ∈Θ

为似然函数。由于 Δ x i ( i = 1 , 2 , ⋯ , n ) \Delta x_i (i=1,2,\cdots,n) Δxi(i=1,2,⋯,n) 与 θ \theta θ 无关，故似然函数常取为
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Θ . L(\theta) = \prod_{i=1}^{n} f(x_i; \theta), \theta \in \Theta. L(θ)=i=1∏nf(xi;θ),θ∈Θ.

最大似然估计法是，根据抽样得到的样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn来选取参数 θ \theta θ 的值，使样本观测值出现的可能性最大，即使似然函数 L ( θ ) L(\theta) L(θ)达到最大值，从而求得参数 θ \theta θ 的最大似然估计 θ ^ \hat{\theta} θ^。

当 L ( θ ) L(\theta) L(θ)是可微函数时，要使 L ( θ ) L(\theta) L(θ)取到最大值， θ \theta θ 必须满足方程
d L ( θ ) d θ = 0 , \frac{dL(\theta)}{d\theta} = 0, dθdL(θ)=0,

此方程称为似然方程。

而由于 L ( θ ) L(\theta) L(θ)是 n n n个函数的乘积，在求导时比较复杂，而 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ)是 L ( θ ) L(\theta) L(θ)的单调递增函数， ln ⁡ L ( θ ) \ln L(\theta) lnL(θ)与 L ( θ ) L(\theta) L(θ)在同一点处取得最大值，因此求解上述似然方程可以转化为求解方程
d ln ⁡ L ( θ ) d θ = 0 , \frac{d\ln L(\theta)}{d\theta} = 0, dθdlnL(θ)=0,

这个方程称为对数似然方程。

当总体 X X X的分布中有多个未知参数 θ 1 , θ 2 , ⋯ , θ m \theta_1, \theta_2, \cdots, \theta_m θ1,θ2,⋯,θm时，似然函数就是这些参数的多元函数 L ( θ 1 , θ 2 , ⋯ , θ m ) L(\theta_1, \theta_2, \cdots, \theta_m) L(θ1,θ2,⋯,θm)，则相应地有方程组。
{ ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯ , θ m ) ∂ θ 1 = 0 , ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯ , θ m ) ∂ θ 2 = 0 , ⋮ ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯ , θ m ) ∂ θ m = 0 , \begin{cases} \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_1} = 0, \\ \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_2} = 0, \\ \vdots \\ \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_m} = 0, \end{cases} ⎩ ⎨ ⎧∂θ1∂lnL(θ1,θ2,⋯,θm)=0,∂θ2∂lnL(θ1,θ2,⋯,θm)=0,⋮∂θm∂lnL(θ1,θ2,⋯,θm)=0,

由此方程组解得 θ 1 , θ 2 , ⋯ , θ m \theta_1, \theta_2, \cdots, \theta_m θ1,θ2,⋯,θm的最大似然估计值 θ ^ 1 , θ ^ 2 , ⋯ , θ ^ m \hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_m θ^1,θ^2,⋯,θ^m.

综上，可得求最大似然估计的一般步骤：

(1) 写出似然函数 L ( θ ) = L ( x 1 , x 2 , ⋯ , x n , θ ) L(\theta) = L(x_1, x_2, \cdots, x_n, \theta) L(θ)=L(x1,x2,⋯,xn,θ)；

(2) 令 d L ( θ ) d θ = 0 \frac{dL(\theta)}{d\theta} = 0 dθdL(θ)=0 或 d ln ⁡ L ( θ ) d θ = 0 \frac{d\ln L(\theta)}{d\theta} = 0 dθdlnL(θ)=0，求出驻点；

(3) 判断并求出最大值点，用样本值代入就是参数的最大似然估计值。

注：

(1) 当似然函数关于未知参数不可微时，只能按最大似然原理计算最大值点；

(2) 上述的一般步骤对含有多个未知参数的情形同样适用，只需将求导数变为求偏导数；

(3) 称 d ln ⁡ L ( θ ) d θ = 0 \frac{d\ln L(\theta)}{d\theta} = 0 dθdlnL(θ)=0 为对数似然方程，称 ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯ , θ n ) ∂ θ i = 0 \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_n)}{\partial \theta_i} = 0 ∂θi∂lnL(θ1,θ2,⋯,θn)=0， i = 1 , 2 , ⋯ , n i=1,2,\cdots,n i=1,2,⋯,n 为对数似然方程组。