极大似然估计

最大似然估计法

最大似然估计又称极大似然估计,是一种利用给定样本观测值来评估模型参数的方法,其基本原理为:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。

分两种情况介绍最大似然估计的方法和步骤。

  1. 离散型总体

设离散型总体X的分布律为
P ( X = x ) = p ( x ; θ ) , P(X=x) = p(x; \theta), P(X=x)=p(x;θ),

其中 θ ∈ Θ \theta \in \Theta θ∈Θ为未知参数, Θ \Theta Θ为 θ \theta θ的所有可能取值范围(称为参数空间),则对于给定的样本观测值 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,样本的联合分布律为
P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n ) = ∏ i = 1 n p ( x i ; θ ) . P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) = \prod_{i=1}^{n} p(x_i; \theta). P(X1=x1,X2=x2,⋯,Xn=xn)=i=1∏np(xi;θ).

称 L ( θ ) L(\theta) L(θ)为似然函数,它是未知参数 θ \theta θ 的函数。

  1. 连续型总体

设连续型总体 X X X的概率密度函数为 f ( x ; θ ) f(x; \theta) f(x;θ),其中 θ ∈ Θ \theta \in \Theta θ∈Θ 为未知参数, Θ \Theta Θ 为 θ \theta θ 的所有可能取值范围(称为参数空间),则对于给定的样本观测值 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,样本的联合概率密度为 ∏ i = 1 n f ( x i ; θ ) \prod_{i=1}^{n} f(x_i; \theta) ∏i=1nf(xi;θ),从而随机变量 X i X_i Xi落在点 x i x_i xi的邻域(其半径为 Δ x i \Delta x_i Δxi)内的概率可近似为
∏ i = 1 n f ( x i ; θ ) Δ x i . \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i. i=1∏nf(xi;θ)Δxi.

当 x i ( i = 1 , 2 , ⋯   , n ) x_i (i=1,2,\cdots,n) xi(i=1,2,⋯,n)取定时,它是 θ \theta θ 的函数,记为 L ( θ ) L(\theta) L(θ),称
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) Δ x i , θ ∈ Θ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i, \theta \in \Theta L(θ)=i=1∏nf(xi;θ)Δxi,θ∈Θ

为似然函数。由于 Δ x i ( i = 1 , 2 , ⋯   , n ) \Delta x_i (i=1,2,\cdots,n) Δxi(i=1,2,⋯,n) 与 θ \theta θ 无关,故似然函数常取为
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Θ . L(\theta) = \prod_{i=1}^{n} f(x_i; \theta), \theta \in \Theta. L(θ)=i=1∏nf(xi;θ),θ∈Θ.

最大似然估计法是,根据抽样得到的样本观测值 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn来选取参数 θ \theta θ 的值,使样本观测值出现的可能性最大,即使似然函数 L ( θ ) L(\theta) L(θ)达到最大值,从而求得参数 θ \theta θ 的最大似然估计 θ ^ \hat{\theta} θ^。

当 L ( θ ) L(\theta) L(θ)是可微函数时,要使 L ( θ ) L(\theta) L(θ)取到最大值, θ \theta θ 必须满足方程
d L ( θ ) d θ = 0 , \frac{dL(\theta)}{d\theta} = 0, dθdL(θ)=0,

此方程称为似然方程。

而由于 L ( θ ) L(\theta) L(θ)是 n n n个函数的乘积,在求导时比较复杂,而 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ)是 L ( θ ) L(\theta) L(θ)的单调递增函数, ln ⁡ L ( θ ) \ln L(\theta) lnL(θ)与 L ( θ ) L(\theta) L(θ)在同一点处取得最大值,因此求解上述似然方程可以转化为求解方程
d ln ⁡ L ( θ ) d θ = 0 , \frac{d\ln L(\theta)}{d\theta} = 0, dθdlnL(θ)=0,

这个方程称为对数似然方程。

当总体 X X X的分布中有多个未知参数 θ 1 , θ 2 , ⋯   , θ m \theta_1, \theta_2, \cdots, \theta_m θ1,θ2,⋯,θm时,似然函数就是这些参数的多元函数 L ( θ 1 , θ 2 , ⋯   , θ m ) L(\theta_1, \theta_2, \cdots, \theta_m) L(θ1,θ2,⋯,θm),则相应地有方程组。
{ ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯   , θ m ) ∂ θ 1 = 0 , ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯   , θ m ) ∂ θ 2 = 0 , ⋮ ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯   , θ m ) ∂ θ m = 0 , \begin{cases} \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_1} = 0, \\ \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_2} = 0, \\ \vdots \\ \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_m} = 0, \end{cases} ⎩ ⎨ ⎧∂θ1∂lnL(θ1,θ2,⋯,θm)=0,∂θ2∂lnL(θ1,θ2,⋯,θm)=0,⋮∂θm∂lnL(θ1,θ2,⋯,θm)=0,

由此方程组解得 θ 1 , θ 2 , ⋯   , θ m \theta_1, \theta_2, \cdots, \theta_m θ1,θ2,⋯,θm的最大似然估计值 θ ^ 1 , θ ^ 2 , ⋯   , θ ^ m \hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_m θ^1,θ^2,⋯,θ^m.

综上,可得求最大似然估计的一般步骤:

(1) 写出似然函数 L ( θ ) = L ( x 1 , x 2 , ⋯   , x n , θ ) L(\theta) = L(x_1, x_2, \cdots, x_n, \theta) L(θ)=L(x1,x2,⋯,xn,θ);

(2) 令 d L ( θ ) d θ = 0 \frac{dL(\theta)}{d\theta} = 0 dθdL(θ)=0 或 d ln ⁡ L ( θ ) d θ = 0 \frac{d\ln L(\theta)}{d\theta} = 0 dθdlnL(θ)=0,求出驻点;

(3) 判断并求出最大值点,用样本值代入就是参数的最大似然估计值。

注:

(1) 当似然函数关于未知参数不可微时,只能按最大似然原理计算最大值点;

(2) 上述的一般步骤对含有多个未知参数的情形同样适用,只需将求导数变为求偏导数;

(3) 称 d ln ⁡ L ( θ ) d θ = 0 \frac{d\ln L(\theta)}{d\theta} = 0 dθdlnL(θ)=0 为对数似然方程,称 ∂ ln ⁡ L ( θ 1 , θ 2 , ⋯   , θ n ) ∂ θ i = 0 \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_n)}{\partial \theta_i} = 0 ∂θi∂lnL(θ1,θ2,⋯,θn)=0, i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,⋯,n 为对数似然方程组。

相关推荐
一个不知名程序员www9 小时前
算法学习入门---模拟(C++)
c++·算法
搂鱼1145149 小时前
GJOI 11.10 题解
算法
爱睡觉的咋9 小时前
openGauss × AI:打造一个能识图、能讲解、还能推荐的智慧博物馆导览师
算法
视觉AI10 小时前
一帧就能“训练”的目标跟踪算法:通俗理解 KCF 的训练机制
人工智能·算法·目标跟踪
2301_7951672010 小时前
玩转Rust高级应用 如何理解 Rust 实现免疫数据竞争的关键是Send 和 Sync 这两个 trait
开发语言·算法·rust
Blossom.11810 小时前
AI Agent记忆系统深度实现:从短期记忆到长期人格的演进
人工智能·python·深度学习·算法·决策树·机器学习·copilot
Q741_14711 小时前
C++ 面试高频考点 链表 迭代 递归 力扣 25. K 个一组翻转链表 每日一题 题解
c++·算法·链表·面试·递归·迭代
_fairyland11 小时前
数据结构 力扣 练习
数据结构·考研·算法·leetcode
Neil今天也要学习11 小时前
永磁同步电机无速度算法--基于三阶LESO的反电动势观测器
算法·1024程序员节
机器学习之心11 小时前
NGO-VMD北方苍鹰算法优化变分模态分解+皮尔逊系数+小波阈值降噪+信号重构,MATLAB代码
算法·matlab·重构·信号重构·ngo-vmd·皮尔逊系数·小波阈值降噪