最大似然估计:损失函数的底层数学原理

引言

当你第一次看到线性回归时,你是否注意到了作为参数优化关键的损失函数(均方损失),你是否能够理解它的本质和由来。其实,在我第一次接触时,我是感到有些惊讶的,然后试着去强行理解它,而没有想到它的背后其实有一个数学理论作为支撑------最大似然估计。

最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学和机器学习中用于估计模型参数 的方法。其核心思想是:在已知观测数据的情况下,寻找使得观测数据出现概率最大的模型参数值。(核心在于概率最大)

似然函数

我们的目的就是把上面的似然函数变成最大。

下面我们将以均方损失和交叉熵损失作为案例进行说明。

均方损失(MSE):对应 "观测噪声服从高斯分布" 的 MLE

概率假设:模型预测误差服从高斯分布

theta是参数,也就是均值和方差。

构建对数似然函数

最大化对数似然 → 最小化 MSE

结论

均方损失是 "假设回归任务的观测噪声服从高斯分布" 时,最大似然估计的等价损失函数(即负对数似然)。

交叉熵损失:对应 "类别标签服从伯努利 / 多项式分布" 的 MLE

交叉熵损失是分类任务(输出为离散类别概率,如判断图像是猫 / 狗 / 鸟)中最常用的损失函数,分为二分类多分类两种形式:

二分类为例(多分类同理,只需将伯努利分布扩展为多项式分布):

概率假设:类别标签服从伯努利分布

这个函数设计地很巧妙。

构建对数似然函数

最大化对数似然 → 最小化交叉熵

多分类的扩展

结论

交叉熵损失是 "假设分类任务的类别标签服从伯努利分布(二分类)或多项式分布(多分类)" 时,最大似然估计的等价损失函数(即负对数似然)。

核心对比:MSE 与交叉熵的 MLE 本质差异

两种损失函数的根本区别源于对 "标签生成过程" 的概率假设不同,而这种假设又由任务类型(回归 / 分类)决定:

损失函数 适用任务 背后的概率分布假设 MLE 关联(等价性)
均方损失(MSE) 回归(连续输出) 观测噪声~高斯分布 最小化 MSE = 最大化高斯分布下的对数似然
交叉熵损失(CE) 分类(离散类别) 类别标签~伯努利 / 多项式分布 最小化 CE = 最大化伯努利 / 多项式分布下的对数似然

怎么说呢?感觉还是很神奇的,损失函数竟然就这么水灵灵的被推导出来了。

相关推荐
摘星编程17 小时前
Ascend C编程语言详解:打造高效AI算子的利器
c语言·开发语言·人工智能
自然常数e17 小时前
深入理解指针(6)
c语言·数据结构·算法·visual studio
Xの哲學17 小时前
Linux VxLAN深度解析: 从数据平面到内核实现的全面剖析
linux·服务器·算法·架构·边缘计算
TL滕17 小时前
从0开始学算法——第十八天(分治算法练习)
笔记·学习·算法
DisonTangor17 小时前
【小米拥抱开源】小米MiMo团队开源309B专家混合模型——MiMo-V2-Flash
人工智能·开源·aigc
月明长歌17 小时前
【码道初阶】【LeetCode 958】判定完全二叉树:警惕 BFS 中的“管中窥豹”陷阱
算法·leetcode·宽度优先
hxxjxw17 小时前
Pytorch分布式训练/多卡训练(六) —— Expert Parallelism (MoE的特殊策略)
人工智能·pytorch·python
Robot侠17 小时前
视觉语言导航从入门到精通(一)
网络·人工智能·microsoft·llm·vln
掘金一周17 小时前
【用户行为监控】别只做工具人了!手把手带你写一个前端埋点统计 SDK | 掘金一周 12.18
前端·人工智能·后端
神州问学17 小时前
世界模型:AI的下一个里程碑
人工智能