负对数似然函数详解

一、统计建模的基本设定

1. 概率模型与参数

设随机变量 (X)(X)(X) 的分布属于一参数化分布族
f(x∣θ):θ∈Θ, {f(x\mid\theta):\theta\in\Theta}, f(x∣θ):θ∈Θ,

其中

  • (f(x∣θ))(f(x\mid\theta))(f(x∣θ)) 是 (X)(X)(X) 的概率密度函数(或离散情形下的概率质量函数),
  • (θ)(\theta)(θ) 是未知参数
  • (Θ)(\Theta)(Θ) 是参数空间。

2. 样本


X1,...,Xn∼i.i.d.f(x∣θ), X_1,\dots,X_n \overset{\text{i.i.d.}}{\sim} f(x\mid\theta), X1,...,Xn∼i.i.d.f(x∣θ),

并记其观测值为 (x1,...,xn)(x_1,\dots,x_n)(x1,...,xn)。


二、似然(Likelihood)

1. 定义

在样本观测值 (x1,...,xn)(x_1,\dots,x_n)(x1,...,xn) 固定的前提下,将联合概率密度函数视为参数 (θ)(\theta)(θ)的函数,定义似然函数
L(θ∣x1,...,xn)=∏i=1nf(xi∣θ). L(\theta\mid x_1,\dots,x_n) = \prod_{i=1}^n f(x_i\mid\theta). L(θ∣x1,...,xn)=i=1∏nf(xi∣θ).

2. 概念澄清

  • 概率密度函数:自变量是随机变量 (x),参数 (\theta) 固定
  • 似然函数:自变量是参数 (\theta),观测值 (x) 固定
  • 似然函数不是概率分布,不要求对 (\theta) 积分为 1

3. 统计意义

似然函数刻画了:

在不同参数取值下,已观测样本"出现的相对合理程度"。


三、对数似然(Log-Likelihood)

1. 引入动机

直接使用似然函数存在以下不便:

  • 样本独立时为乘积形式,计算复杂
  • 数值上容易产生下溢问题

因此引入对数变换。

2. 定义

对数似然函数定义为
ℓ(θ∣x1,...,xn)=log⁡L(θ∣x1,...,xn)=∑i=1nlog⁡f(xi∣θ). \ell(\theta\mid x_1,\dots,x_n) = \log L(\theta\mid x_1,\dots,x_n) = \sum_{i=1}^n \log f(x_i\mid\theta). ℓ(θ∣x1,...,xn)=logL(θ∣x1,...,xn)=i=1∑nlogf(xi∣θ).

3. 理论性质

  • 对数函数为严格单调递增函数
  • 最大化似然函数与最大化对数似然函数在参数空间内等价

4. 数学与统计优势

  • 将乘积转化为求和,便于解析推导
  • 对参数求导更为简洁
  • 提高数值计算稳定性

四、负对数似然(Negative Log-Likelihood, NLL)

1. 引入背景

在优化理论与数值计算中,通常将问题表述为最小化目标函数

因此,将"最大化对数似然"改写为"最小化负对数似然"。

2. 定义

负对数似然函数定义为
L(θ∣x1,...,xn)=−ℓ(θ∣x1,...,xn)=−∑i=1nlog⁡f(xi∣θ). \mathcal L(\theta\mid x_1,\dots,x_n) = -\ell(\theta\mid x_1,\dots,x_n) = -\sum_{i=1}^n \log f(x_i\mid\theta). L(θ∣x1,...,xn)=−ℓ(θ∣x1,...,xn)=−i=1∑nlogf(xi∣θ).

3. 与参数估计的关系

极大似然估计可等价表述为
θ^=arg⁡max⁡θℓ(θ∣x)=arg⁡min⁡θL(θ∣x). \hat\theta = \arg\max_{\theta} \ell(\theta\mid x) = \arg\min_{\theta} \mathcal L(\theta\mid x). θ^=argθmaxℓ(θ∣x)=argθminL(θ∣x).

4. 在机器学习中的角色

  • 负对数似然常被直接作为损失函数
  • 多种常见损失(如交叉熵)均可解释为特定分布假设下的负对数似然

五、三者之间的逻辑关系总结

  1. 概率模型给出 (f(x∣θ))(f(x\mid\theta))(f(x∣θ))
  2. 固定样本,得到似然函数 (L(θ∣x))(L(\theta\mid x))(L(θ∣x))
  3. 取对数,得到对数似然 (ℓ(θ∣x))(\ell(\theta\mid x))(ℓ(θ∣x))
  4. 取相反数,得到负对数似然 (L(θ∣x))(\mathcal L(\theta\mid x))(L(θ∣x))
  5. 通过极值问题实现参数估计

六、概念对照总结表

概念 数学形式 自变量 主要用途
概率密度函数 (f(x∣θ))(f(x\mid\theta))(f(x∣θ)) (x)(x)(x) 描述随机变量分布
似然函数 (L(θ∣x))(L(\theta\mid x))(L(θ∣x)) (θ)(\theta)(θ) 参数比较
对数似然 (ℓ(θ∣x))(\ell(\theta\mid x))(ℓ(θ∣x)) (θ)(\theta)(θ) 解析与数值优化
负对数似然 (−ℓ(θ∣x))(-\ell(\theta\mid x))(−ℓ(θ∣x)) (θ)(\theta)(θ) 最小化问题、损失函数
相关推荐
AI科技星5 小时前
加速运动正电荷产生加速度反向引力场的详细求导过程
人工智能·线性代数·算法·机器学习·矩阵·概率论
木非哲1 天前
AB实验的关键认知(十一)A/A实验
概率论·abtest
木非哲1 天前
AB实验的关键认知(十二)黄金时刻-最大统计功效阶段-MPR
概率论·abtest
larance2 天前
先验概率、似然概率与后验概率详解
概率论
张祥6422889043 天前
误差理论与测量平差基础笔记六
笔记·算法·概率论
木非哲3 天前
AB实验的关键认知(八)实验流量规划
概率论·abtest
我家大宝最可爱3 天前
强化学习基础-重要性采样
算法·机器学习·概率论
木非哲4 天前
AB实验的关键认知(六)分流单元与分析单元
概率论·abtest
郝学胜-神的一滴4 天前
机器学习特征选择:深入理解移除低方差特征与sklearn的VarianceThreshold
开发语言·人工智能·python·机器学习·概率论·sklearn