最大似然估计:损失函数的底层数学原理

引言

当你第一次看到线性回归时,你是否注意到了作为参数优化关键的损失函数(均方损失),你是否能够理解它的本质和由来。其实,在我第一次接触时,我是感到有些惊讶的,然后试着去强行理解它,而没有想到它的背后其实有一个数学理论作为支撑------最大似然估计。

最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学和机器学习中用于估计模型参数 的方法。其核心思想是:在已知观测数据的情况下,寻找使得观测数据出现概率最大的模型参数值。(核心在于概率最大)

似然函数

我们的目的就是把上面的似然函数变成最大。

下面我们将以均方损失和交叉熵损失作为案例进行说明。

均方损失(MSE):对应 "观测噪声服从高斯分布" 的 MLE

概率假设:模型预测误差服从高斯分布

theta是参数,也就是均值和方差。

构建对数似然函数

最大化对数似然 → 最小化 MSE

结论

均方损失是 "假设回归任务的观测噪声服从高斯分布" 时,最大似然估计的等价损失函数(即负对数似然)。

交叉熵损失:对应 "类别标签服从伯努利 / 多项式分布" 的 MLE

交叉熵损失是分类任务(输出为离散类别概率,如判断图像是猫 / 狗 / 鸟)中最常用的损失函数,分为二分类多分类两种形式:

二分类为例(多分类同理,只需将伯努利分布扩展为多项式分布):

概率假设:类别标签服从伯努利分布

这个函数设计地很巧妙。

构建对数似然函数

最大化对数似然 → 最小化交叉熵

多分类的扩展

结论

交叉熵损失是 "假设分类任务的类别标签服从伯努利分布(二分类)或多项式分布(多分类)" 时,最大似然估计的等价损失函数(即负对数似然)。

核心对比:MSE 与交叉熵的 MLE 本质差异

两种损失函数的根本区别源于对 "标签生成过程" 的概率假设不同,而这种假设又由任务类型(回归 / 分类)决定:

损失函数 适用任务 背后的概率分布假设 MLE 关联(等价性)
均方损失(MSE) 回归(连续输出) 观测噪声~高斯分布 最小化 MSE = 最大化高斯分布下的对数似然
交叉熵损失(CE) 分类(离散类别) 类别标签~伯努利 / 多项式分布 最小化 CE = 最大化伯努利 / 多项式分布下的对数似然

怎么说呢?感觉还是很神奇的,损失函数竟然就这么水灵灵的被推导出来了。

相关推荐
寂静山林5 分钟前
UVa 10228 A Star not a Tree?
算法
爱喝白开水a6 分钟前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
takashi_void13 分钟前
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程
linux·人工智能·windows·macos·语言模型·nlp
OpenCSG18 分钟前
【活动预告】2025斗拱开发者大会,共探支付与AI未来
人工智能·ai·开源·大模型·支付安全
Neverfadeaway18 分钟前
【C语言】深入理解函数指针数组应用(4)
c语言·开发语言·算法·回调函数·转移表·c语言实现计算器
生命是有光的21 分钟前
【深度学习】神经网络基础
人工智能·深度学习·神经网络
数字供应链安全产品选型25 分钟前
国家级!悬镜安全入选两项“网络安全国家标准应用实践案例”
人工智能·安全·web安全
科技新知37 分钟前
大厂AI各走“开源”路
人工智能·开源
字节数据平台39 分钟前
火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
大数据·人工智能·火山引擎
TGITCIC40 分钟前
LLaVA-OV:开源多模态的“可复现”革命,不只是又一个模型
人工智能·开源·多模态·ai大模型·开源大模型·视觉模型·大模型ai