一、定义
最大似然估计 是一种参数估计方法,其核心思想是:
选择能使观测数据出现概率最大的参数值作为估计值 。
具体来说,假设数据 D = x 1 , x 2 , ... , x n D={x_1,x_2,...,x_n} D=x1,x2,...,xn独立且服从某个概率分布 P ( x ∣ θ ) P(x∣θ) P(x∣θ),则通过最大化似然函数 L ( θ ∣ D ) \mathcal{L}(\theta \mid \mathcal{D}) L(θ∣D)来求解参数 θ θ θ。
二、公式推导
-
似然函数 :
数据独立时,似然函数为各数据点概率的乘积:
L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θ∣D)=∏i=1nP(xi∣θ) -
对数似然:
为简化计算,取自然对数(乘积变加法):
L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θ∣D)=∏i=1nP(xi∣θ) -
最大化目标:
求解使对数似然最大的参数 θ ∗ θ^∗ θ∗:
θ ∗ = arg max θ ∑ i = 1 n ln P ( x i ∣ θ ) \theta^*=\arg \max \theta \sum{i=1}^n \ln P\left(x_i \mid \theta\right) θ∗=argmaxθ∑i=1nlnP(xi∣θ) -
求解方法:
对 θ 求导并令导数为零,或使用梯度下降等优化算法。
三、经典例子
例1:估计正态分布的均值和方差
假设数据 D = x 1 , x 2 , ... , x n \mathcal{D}={x_1,x_2,...,x_n} D=x1,x2,...,xn服从正态分布 N ( μ , σ 2 ) \mathcal{N}\left(\mu, \sigma^2\right) N(μ,σ2),求 μ \mu μ和 σ 2 \sigma^2 σ2估计。
-
似然函数:
L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 e − ( x i − μ ) 2 2 σ 2 \mathcal{L}\left(\mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}} L(μ,σ2)=∏i=1n2πσ2 1e−2σ2(xi−μ)2 -
对数似然:
ln L = − n 2 ln ( 2 π ) − n 2 ln σ 2 − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ln \mathcal{L}=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n(x_i-\mu)^2 lnL=−2nln(2π)−2nlnσ2−2σ21∑i=1n(xi−μ)2
- 求导解方程:
对 μ μ μ 求导:
∂ ln L ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ⇒ μ ∗ = 1 n ∑ i = 1 n x i \frac{\partial \ln \mathcal{L}}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0 \Rightarrow \quad \mu^*=\frac{1}{n} \sum_{i=1}^n x_i ∂μ∂lnL=σ21∑i=1n(xi−μ)=0⇒μ∗=n1∑i=1nxi
对 σ 2 \sigma^2 σ2求导:
∂ ln L ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 ⇒ σ 2 ∗ = 1 n ∑ i = 1 n ( x i − μ ∗ ) 2 \frac{\partial \ln \mathcal{L}}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \Rightarrow \quad \sigma^{2 *}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu^*\right)^2 ∂σ2∂lnL=−2σ2n+2σ41∑i=1n(xi−μ)2=0⇒σ2∗=n1∑i=1n(xi−μ∗)2
- 结论
μ ∗ \mu^* μ∗是样本均值, σ 2 ∗ \sigma^{2 *} σ2∗是样本方差(但分母为 n,有偏估计)。
例2:二项分布的参数估计
假设抛硬币 n 次,正面朝上 k 次,估计正面概率 p。
-
似然函数:
\\mathcal{L}§ = \\binom{n}{k} p\^k (1-p)\^{n-k}
-
对数似然:
\\ln \\mathcal{L} = \\ln \\binom{n}{k} + k \\ln p + (n - k) \\ln (1 - p)
- 求导解方程:
\\frac{\\partial \\ln \\mathcal{L}}{\\partial p} = \\frac{k}{p} - \\frac{n-k}{1-p} = 0 \\implies p\^\* = \\frac{k}{n}
结论:正面概率的 MLE 估计是观测频率 k n \frac{k}{n} nk
四、MLE 与大模型的关系
在大模型(如 GPT、BERT、ResNet)中,MLE 是训练目标的数学基础,但需结合工程技巧扩展:
-
损失函数设计:
-
交叉熵损失 :分类任务中,最小化交叉熵等价于最大化对数似然。
例如,语言模型预测下一个词的概率分布时,损失函数为:
L = − ∑ t = 1 T ln P ( w t ∣ w < t , θ ) \mathcal{L} = - \sum_{t=1}^{T} \ln P(w_t|w_{<t}, \theta) L=−∑t=1TlnP(wt∣w<t,θ)
-
均方误差(MSE):回归任务中,MSE 等价于假设数据服从高斯分布时的 MLE。
-
-
正则化与贝叶斯扩展:
-
MLE 容易过拟合,大模型常加入正则化项(如 L2 正则),这等价于最大后验估计(MAP,贝叶斯框架下的 MLE 扩展)。
-
贝叶斯神经网络将 MLE 推广为后验分布推断(如变分推断)。
-
-
优化算法:
- 大模型参数规模巨大(如 GPT-3 有 1750 亿参数),直接求解 MLE 不可行,需使用 随机梯度下降(SGD) 或其变体(如 Adam)近似优化。
-
生成模型中的应用:
-
生成对抗网络(GAN)和扩散模型中,生成器的训练隐式地最大化数据的似然。
-
自回归模型(如 Transformer)显式地通过 MLE 学习序列数据的分布。
-
五、MLE 的局限性及应对
-
过拟合风险:
-
问题:MLE 倾向于拟合训练数据噪声。
-
解决方案:加入正则化项,或使用贝叶斯方法引入先验。
-
-
数据稀疏性:
-
问题:小数据场景下,MLE 估计可能不准确。
-
解决方案:数据增强、预训练(如 BERT 的 MLM 任务)。
-
-
非凸优化:
-
问题:复杂模型的似然函数可能非凸,陷入局部最优。
-
解决方案:随机初始化、动量优化、学习率调度。
-
六、总结
-
核心公式 : θ ∗ = arg max θ ∑ i = 1 n ln P ( x i ∣ θ ) \theta^*=\arg \max \theta \sum{i=1}^n \ln P\left(x_i \mid \theta\right) θ∗=argmaxθ∑i=1nlnP(xi∣θ)。
-
应用场景:从经典统计到深度学习,MLE 是参数估计的基石。
-
大模型中的角色:
-
直接指导损失函数设计(如交叉熵)。
-
结合正则化和优化算法解决高维问题。
-
生成模型和自回归模型的核心训练目标。
-
-
哲学意义:MLE 体现了"让数据自己说话"的思想,但需通过技术手段平衡拟合与泛化。