似然函数和极大似然估计的总结

似然函数

概率用于在已知一些参数的情况下,预测接下来在观测上所得到的结果。而似然性则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。

似然函数是对参数的函数,其定义为在给定参数值的条件下,观察到某个特定数据的概率。换句话说,似然函数是一个关于参数的函数,而不是关于数据的函数。

如果我们有一个参数化的概率模型P(X|θ),其中X是观测数据,θ是模型参数,似然函数L(θ|X)定义为:

L(θ|X)=P(X|θ)

这里,P(X|θ) 表示在参数为θ的情况下,观察到数据X的概率。

设有一组独立同分布的观测数据X=(x1,x2,...,xnx_1, x_2, \dots, x_nx1,x2,...,xn),并且这些数据服从某个分布(例如正态分布、二项分布等),比如服从参数为θ的某个分布,那么似然函数可以写作:

L(θ∣X)=P(X∣θ)=∏i=1nP(xi∣θ)L(\theta \mid X) = P(X \mid \theta) = \prod_{i=1}^{n} P(x_i \mid \theta)L(θ∣X)=P(X∣θ)=∏i=1nP(xi∣θ)

针对其中存在的乘法,可以使对数函数将其转化为加法:

log⁡L(θ∣X)=log⁡∏i=1nP(xi∣θ)=∑i=1nlog⁡P(xi∣θ)\log L(\theta \mid X) = \log \prod_{i=1}^{n} P(x_i \mid \theta) = \sum_{i=1}^{n} \log P(x_i \mid \theta)logL(θ∣X)=log∏i=1nP(xi∣θ)=∑i=1nlogP(xi∣θ)

什么是极大似然估计

极大似然估计,也叫最大似然估计,英文名称统一为:" ‌Maximum Likelihood Estimation",简称 (MLE)‌。

一句话总结:最大似然估计,就是找一组参数,让「当前已经发生的样本」出现的概率最大。

似然函数常用于极大似然估计。我们希望找到使似然函数最大化的参数θ。这意味着在给定观测数据的情况下,选择最可能生成这些数据的参数值。

例如,掷硬币3次,2次正面1次背面,能否依据此结果逆推出正面的概率;正面概率为0.5的概率为多少、正面概率为0.6的概率为多少;最有可能的正面概率是多少?

此处的:正面概率为0.5的概率为多少,这个问题是什么意思呢,这里的0.5指的是假设每次抛掷,正面朝上的概率为0.5,在此情况下,掷硬币3次,2次正面1次背面的概率是多少。

同理,正面概率为0.6的概率为多少,是说的,假设每次抛掷,正面朝上的概率为0.6,在此情况下,掷硬币3次,2次正面1次背面的概率是多少。

我们用θ 代表硬币正面朝上的概率,用X 代表2次正面1次背面的结果

L(θ∣X)=P(X∣θ)=C32θ2(1−θ)L(\theta|X)=P(X|\theta)=C_3^2\theta^2(1-\theta)L(θ∣X)=P(X∣θ)=C32θ2(1−θ)

当正面概率为0.5时:P(X∣θ=0.5)=C32×0.52×(1−0.5)=0.375P(X|\theta=0.5)=C_3^2 \times 0.5^2 \times (1-0.5)=0.375P(X∣θ=0.5)=C32×0.52×(1−0.5)=0.375

当正面概率为0.6时:P(X∣θ=0.6)=C32×0.62×(1−0.6)=0.432P(X|\theta=0.6)=C_3^2 \times 0.6^2 \times (1-0.6)=0.432P(X∣θ=0.6)=C32×0.62×(1−0.6)=0.432

2次正面1次背面对应的已发生的样本可能有三种情况:正面,正面,背面正面,背面,正面背面,正面,正面。这三种情况,每一种的情况的概率,也就是联合概率,都是θ2(1−θ)\theta^2(1-\theta)θ2(1−θ)。所以要加上组合数C32C_3^2C32。

为了找出极大似然估计,对似然函数取对数并求导,使其等于0

log⁡L(θ∣X)=log⁡C32⋅θ2(1−θ)=log⁡3+2log⁡θ+log⁡(1−θ)\log L(\theta|X)=\log\leftC_3\^2 \\cdot \\theta\^2(1-\\theta)\\right=\log 3+2\log\theta+\log(1-\theta)logL(θ∣X)=logC32⋅θ2(1−θ)=log3+2logθ+log(1−θ)

dlog⁡L(θ∣X)dθ=2θ−11−θ=0\frac{d\log L(\theta|X)}{d\theta}=\frac{2}{\theta}-\frac{1}{1-\theta}=0dθdlogL(θ∣X)=θ2−1−θ1=0

解得θ =23\frac{2}{3}32,意味着当掷硬币3次,出现2次正面1次背面的结果时,硬币正面朝上的概率最有可能为23\frac{2}{3}32。如何确定这个点是极大值点,而不是极小值点,需要通过求二阶导数,将θ 值带进去,判断此处二阶导数的值,进而判断是极大值还是极小值,在这里就没有再求,因为只有一个极值点,

根据经验判断,必然是极大值点,如果求出多个极值点,必须要进行二阶导数判断。

P(X∣θ=23)P(X|\theta= \frac{2}{3})P(X∣θ=32)的值要和P(X∣θ=0)P(X|\theta= 0)P(X∣θ=0),以及P(X∣θ=1)P(X|\theta= 1)P(X∣θ=1)的比较,谁求出的似然函数的值大,最合适的那个θ

log⁡L(θ∣X)\log L(\theta|X)logL(θ∣X) 没有底数?

一句话总结:上面log⁡L(θ∣X)\log L(\theta|X)logL(θ∣X) ,默认指的就是 ln⁡L(θ∣X)\ln L(\theta|X)lnL(θ∣X)

y=ln⁡xy = \ln xy=lnx函数特点是单调递增的,此处的yyy= L(θ∣X)L(\theta|X)L(θ∣X),xxx = C32θ2(1−θ)C_3^2\theta^2(1-\theta)C32θ2(1−θ),这是一个对数复合函数,也就是当θ\thetaθ取什么值时,使x值最大(即C32θ2(1−θ)x值最大(即C_3^2\theta^2(1-\theta)x值最大(即C32θ2(1−θ)的值最大),同时也就是使y最大,也即L(θ∣X)y最大,也即L(\theta|X)y最大,也即L(θ∣X)的值最大。这也就说明了两边取对数后,求导,使导数为0,其极值点的位置,也就是对应的θ\thetaθ值是不变的。

也就是使L(θ∣X)L(\theta|X)L(θ∣X)取得极大值的点和使ln⁡L(θ∣X)\ln L(\theta|X)lnL(θ∣X)取得极大值的点的θ\thetaθ是同一个。

样本的独立同分布怎么理解

似然函数 = 所有样本联合概率,也就是X1,X2,...,XnX_1, X_2, \\dots, X_nX1,X2,...,Xn中,每一个样本元素同时发生的概率。

其中的X1X_1X1是第一次抛硬币时的情况,X2X_2X2是第二次抛硬币时的情况,依次类推,它们可能是正面,也可能时反面,但是一旦发生了,样本固定了,它就只能时其中一个中情况。而我们之前说的抛硬币3次,2次正面,一次背面,其实这里是3种样本的情况,然后把每种样本发生的概率都加起来求和。(因为只要有一个样本发生就满足了条件)。正面, 正面, 反面 + 正面, 反面, 正面+反面, 正面, 正面 这三种概率(每种样本内是求联合概率)的情况之和就是要求的似然函数值。

如果仅仅是为了求待估参数,可以省略掉组合数,因为其是常数,不影响求导,如果是要求似然函数的真是值,则必然要带着组合数。

相关推荐
通信小呆呆1 小时前
Hankel结构及其快速算法详解
线性代数·算法·机器学习
追光者♂1 小时前
【测评系列6】CSDN AI数字营销实测体验官——OpenClaw 数据采集工具新手入门指南
人工智能·深度学习·机器学习·ai·大模型·openclaw·前沿科学
谷哥的小弟1 小时前
大模型核心基础知识(12)—机器学习的基本概念与常见方法
人工智能·深度学习·机器学习·大模型·大语言模型
_Oracle2 小时前
机器学习——绪论
人工智能·机器学习
好评笔记10 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
Omics Pro12 小时前
首个!外源天然产物综合性代谢图谱
数据库·人工智能·算法·机器学习·r语言
明志数科14 小时前
工业场景数据标注跟实验室标注有什么不同
人工智能·机器学习
xiaoxiaoxiaolll14 小时前
《Light: Science & Applications》合并BIC实现80倍阈值单模运行:超紧凑光子晶体激光器新突破
人工智能·算法·机器学习
悟乙己15 小时前
因果机器学习DML效果与应用场景探索
人工智能·机器学习