一、统计建模的基本设定
1. 概率模型与参数
设随机变量 (X)(X)(X) 的分布属于一参数化分布族
f(x∣θ):θ∈Θ, {f(x\mid\theta):\theta\in\Theta}, f(x∣θ):θ∈Θ,
其中
- (f(x∣θ))(f(x\mid\theta))(f(x∣θ)) 是 (X)(X)(X) 的概率密度函数(或离散情形下的概率质量函数),
- (θ)(\theta)(θ) 是未知参数,
- (Θ)(\Theta)(Θ) 是参数空间。
2. 样本
设
X1,...,Xn∼i.i.d.f(x∣θ), X_1,\dots,X_n \overset{\text{i.i.d.}}{\sim} f(x\mid\theta), X1,...,Xn∼i.i.d.f(x∣θ),
并记其观测值为 (x1,...,xn)(x_1,\dots,x_n)(x1,...,xn)。
二、似然(Likelihood)
1. 定义
在样本观测值 (x1,...,xn)(x_1,\dots,x_n)(x1,...,xn) 固定的前提下,将联合概率密度函数视为参数 (θ)(\theta)(θ)的函数,定义似然函数 为
L(θ∣x1,...,xn)=∏i=1nf(xi∣θ). L(\theta\mid x_1,\dots,x_n) = \prod_{i=1}^n f(x_i\mid\theta). L(θ∣x1,...,xn)=i=1∏nf(xi∣θ).
2. 概念澄清
- 概率密度函数:自变量是随机变量 (x),参数 (\theta) 固定
- 似然函数:自变量是参数 (\theta),观测值 (x) 固定
- 似然函数不是概率分布,不要求对 (\theta) 积分为 1
3. 统计意义
似然函数刻画了:
在不同参数取值下,已观测样本"出现的相对合理程度"。
三、对数似然(Log-Likelihood)
1. 引入动机
直接使用似然函数存在以下不便:
- 样本独立时为乘积形式,计算复杂
- 数值上容易产生下溢问题
因此引入对数变换。
2. 定义
对数似然函数定义为
ℓ(θ∣x1,...,xn)=logL(θ∣x1,...,xn)=∑i=1nlogf(xi∣θ). \ell(\theta\mid x_1,\dots,x_n) = \log L(\theta\mid x_1,\dots,x_n) = \sum_{i=1}^n \log f(x_i\mid\theta). ℓ(θ∣x1,...,xn)=logL(θ∣x1,...,xn)=i=1∑nlogf(xi∣θ).
3. 理论性质
- 对数函数为严格单调递增函数
- 最大化似然函数与最大化对数似然函数在参数空间内等价
4. 数学与统计优势
- 将乘积转化为求和,便于解析推导
- 对参数求导更为简洁
- 提高数值计算稳定性
四、负对数似然(Negative Log-Likelihood, NLL)
1. 引入背景
在优化理论与数值计算中,通常将问题表述为最小化目标函数 。
因此,将"最大化对数似然"改写为"最小化负对数似然"。
2. 定义
负对数似然函数定义为
L(θ∣x1,...,xn)=−ℓ(θ∣x1,...,xn)=−∑i=1nlogf(xi∣θ). \mathcal L(\theta\mid x_1,\dots,x_n) = -\ell(\theta\mid x_1,\dots,x_n) = -\sum_{i=1}^n \log f(x_i\mid\theta). L(θ∣x1,...,xn)=−ℓ(θ∣x1,...,xn)=−i=1∑nlogf(xi∣θ).
3. 与参数估计的关系
极大似然估计可等价表述为
θ^=argmaxθℓ(θ∣x)=argminθL(θ∣x). \hat\theta = \arg\max_{\theta} \ell(\theta\mid x) = \arg\min_{\theta} \mathcal L(\theta\mid x). θ^=argθmaxℓ(θ∣x)=argθminL(θ∣x).
4. 在机器学习中的角色
- 负对数似然常被直接作为损失函数
- 多种常见损失(如交叉熵)均可解释为特定分布假设下的负对数似然
五、三者之间的逻辑关系总结
- 概率模型给出 (f(x∣θ))(f(x\mid\theta))(f(x∣θ))
- 固定样本,得到似然函数 (L(θ∣x))(L(\theta\mid x))(L(θ∣x))
- 取对数,得到对数似然 (ℓ(θ∣x))(\ell(\theta\mid x))(ℓ(θ∣x))
- 取相反数,得到负对数似然 (L(θ∣x))(\mathcal L(\theta\mid x))(L(θ∣x))
- 通过极值问题实现参数估计
六、概念对照总结表
| 概念 | 数学形式 | 自变量 | 主要用途 |
|---|---|---|---|
| 概率密度函数 | (f(x∣θ))(f(x\mid\theta))(f(x∣θ)) | (x)(x)(x) | 描述随机变量分布 |
| 似然函数 | (L(θ∣x))(L(\theta\mid x))(L(θ∣x)) | (θ)(\theta)(θ) | 参数比较 |
| 对数似然 | (ℓ(θ∣x))(\ell(\theta\mid x))(ℓ(θ∣x)) | (θ)(\theta)(θ) | 解析与数值优化 |
| 负对数似然 | (−ℓ(θ∣x))(-\ell(\theta\mid x))(−ℓ(θ∣x)) | (θ)(\theta)(θ) | 最小化问题、损失函数 |