总结
- MLE:纯数据驱动,简单高效,大样本最优
- MAP:MLE + 正则化,利用先验,防止过拟合
- Full Bayes:完整不确定性,小样本最佳,计算昂贵
- 数据多用MLE,先验强用MAP,不确定找Bayes!
最大似然估计 (Maximum Likelihood Estimation, MLE)
核心思想:找到使观测数据出现概率最大的参数值。
数学表达 :
θ^MLE=argmaxθP(D∣θ)=argmaxθ∏i=1nP(xi∣θ)\hat{\theta}{MLE} = \arg\max{\theta} P(D|\theta) = \arg\max_{\theta} \prod_{i=1}^{n} P(x_i|\theta)θ^MLE=argθmaxP(D∣θ)=argθmaxi=1∏nP(xi∣θ)
对数似然 (更常用):
θ^MLE=argmaxθlogP(D∣θ)=argmaxθ∑i=1nlogP(xi∣θ)\hat{\theta}{MLE} = \arg\max{\theta} \log P(D|\theta) = \arg\max_{\theta} \sum_{i=1}^{n} \log P(x_i|\theta)θ^MLE=argθmaxlogP(D∣θ)=argθmaxi=1∑nlogP(xi∣θ)
直觉:数据已经发生了,什么样的参数最有可能产生这些数据?
最大后验估计 (Maximum A Posteriori, MAP)
核心思想:结合先验知识,找到在观测数据下后验概率最大的参数值。
数学表达 :
θ^MAP=argmaxθP(θ∣D)\hat{\theta}{MAP} = \arg\max{\theta} P(\theta|D)θ^MAP=argθmaxP(θ∣D)
利用贝叶斯定理:
P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}P(θ∣D)=P(D)P(D∣θ)P(θ)
由于 P(D)P(D)P(D) 与 θ\thetaθ 无关,可以忽略:
θ^MAP=argmaxθP(D∣θ)P(θ)\hat{\theta}{MAP} = \arg\max{\theta} P(D|\theta)P(\theta)θ^MAP=argθmaxP(D∣θ)P(θ)
对数形式 :
θ^MAP=argmaxθ[logP(D∣θ)+logP(θ)]\hat{\theta}{MAP} = \arg\max{\theta} [\log P(D|\theta) + \log P(\theta)]θ^MAP=argθmax[logP(D∣θ)+logP(θ)]
直觉:在有先验信念的情况下,结合数据和先验,什么参数最合理?
MAP与正则化的联系
MAP估计与正则化有深刻联系!
L2正则化 = 高斯先验
在线性回归中,假设参数服从高斯先验:
P(θ)∝e−λ2∥θ∥2P(\theta) \propto e^{-\frac{\lambda}{2}\|\theta\|^2}P(θ)∝e−2λ∥θ∥2
MAP目标函数:
θ^MAP=argmaxθ[logP(D∣θ)+logP(θ)]\hat{\theta}{MAP} = \arg\max{\theta} [\log P(D|\theta) + \log P(\theta)]θ^MAP=argθmax[logP(D∣θ)+logP(θ)]
=argmaxθ[logP(D∣θ)−λ2∥θ∥2]= \arg\max_{\theta} [\log P(D|\theta) - \frac{\lambda}{2}\|\theta\|^2]=argθmax[logP(D∣θ)−2λ∥θ∥2]
=argminθ[−logP(D∣θ)+λ2∥θ∥2]= \arg\min_{\theta} [-\log P(D|\theta) + \frac{\lambda}{2}\|\theta\|^2]=argθmin[−logP(D∣θ)+2λ∥θ∥2]
这正是带L2正则化的损失函数(Ridge回归)!
L1正则化 = 拉普拉斯先验
假设参数服从拉普拉斯先验:
P(θ)∝e−λ∥θ∥1P(\theta) \propto e^{-\lambda\|\theta\|_1}P(θ)∝e−λ∥θ∥1
MAP目标函数:
θ^MAP=argminθ[−logP(D∣θ)+λ∥θ∥1]\hat{\theta}{MAP} = \arg\min{\theta} [-\log P(D|\theta) + \lambda\|\theta\|_1]θ^MAP=argθmin[−logP(D∣θ)+λ∥θ∥1]
这正是带L1正则化的损失函数(Lasso回归)!
结论:正则化本质上是在做MAP估计,正则化项对应先验分布!
完全贝叶斯方法
问题设定
- 已观测数据:D={x1,x2,...,xn}D = \{x_1, x_2, ..., x_n\}D={x1,x2,...,xn}
- 未知参数:θ\thetaθ(已通过贝叶斯推断得到后验分布 P(θ∣D)P(\theta|D)P(θ∣D))
- 目标 :预测新数据 xnewx_{new}xnew 的分布
核心思想
问题 :我们想知道 P(xnew∣D)P(x_{new}|D)P(xnew∣D),但参数 θ\thetaθ 是未知的(不确定的)
频率派做法:
- 用点估计 θ^\hat{\theta}θ^(如MLE)
- 预测:P(xnew∣θ^)P(x_{new}|\hat{\theta})P(xnew∣θ^)
- 问题:忽略了参数的不确定性
贝叶斯做法:
- 考虑所有可能的 θ\thetaθ 值
- 用后验概率 P(θ∣D)P(\theta|D)P(θ∣D) 加权
- 对所有 θ\thetaθ 进行积分(边缘化)
与MLE和MAP都不同,完全贝叶斯方法不估计单一参数值,而是计算参数的完整后验分布:
P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}P(θ∣D)=P(D)P(D∣θ)P(θ)
预测 时使用后验分布的期望或积分:
P(xnew∣D)=∫P(xnew∣θ)P(θ∣D)dθP(x_{new}|D) = \int P(x_{new}|\theta)P(\theta|D)d\thetaP(xnew∣D)=∫P(xnew∣θ)P(θ∣D)dθ
推导过程
目标 :求 P(xnew∣D)P(x_{new}|D)P(xnew∣D)
步骤1:引入参数
利用全概率公式 (Law of Total Probability),对参数 θ\thetaθ 进行边缘化:
P(xnew∣D)=∫P(xnew,θ∣D)dθP(x_{new}|D) = \int P(x_{new}, \theta|D) d\thetaP(xnew∣D)=∫P(xnew,θ∣D)dθ
这是在说:"xnewx_{new}xnew 的概率等于对所有可能的 θ\thetaθ 求和"
步骤2:分解联合概率
使用条件概率的链式法则:
P(xnew,θ∣D)=P(xnew∣θ,D)⋅P(θ∣D)P(x_{new}, \theta|D) = P(x_{new}|\theta, D) \cdot P(\theta|D)P(xnew,θ∣D)=P(xnew∣θ,D)⋅P(θ∣D)
步骤3:条件独立性假设
关键假设:给定参数 θ\thetaθ 后,新数据 xnewx_{new}xnew 与旧数据 DDD 条件独立
P(xnew∣θ,D)=P(xnew∣θ)P(x_{new}|\theta, D) = P(x_{new}|\theta)P(xnew∣θ,D)=P(xnew∣θ)
为什么成立?
这是因为:
- θ\thetaθ 包含了生成数据的全部信息
- 一旦知道 θ\thetaθ,xnewx_{new}xnew 的分布就确定了
- 旧数据 DDD 不再提供额外信息
数学表达 :
xnew⊥D∣θx_{new} \perp D | \thetaxnew⊥D∣θ
(xnewx_{new}xnew 和 DDD 在给定 θ\thetaθ 下独立)
步骤4:代入得到最终公式
P(xnew∣D)=∫P(xnew∣θ,D)⋅P(θ∣D)dθP(x_{new}|D) = \int P(x_{new}|\theta, D) \cdot P(\theta|D) d\thetaP(xnew∣D)=∫P(xnew∣θ,D)⋅P(θ∣D)dθ
=∫P(xnew∣θ)⋅P(θ∣D)dθ= \int P(x_{new}|\theta) \cdot P(\theta|D) d\theta=∫P(xnew∣θ)⋅P(θ∣D)dθ
✅ 这就是后验预测分布!
MLE vs MAP vs Full Bayes 对比表
维度 | MLE (最大似然估计) | MAP (最大后验估计) | Full Bayes (完全贝叶斯) |
---|---|---|---|
核心公式 | argmaxP(D∣θ)\arg\max P(D|\theta)argmaxP(D∣θ) | argmaxP(D∣θ)P(θ)\arg\max P(D|\theta)P(\theta)argmaxP(D∣θ)P(θ) | P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}P(θ∣D)=P(D)P(D∣θ)P(θ) |
输出 | 单个点 θ^\hat{\theta}θ^ | 单个点 θ^\hat{\theta}θ^ | 完整分布 P(θ∣D)P(\theta|D)P(θ∣D) |
参数观点 | 固定未知常数 | 随机变量(取众数,概率峰值) | 随机变量(保留分布) |
使用先验 | ❌ 不使用 | ✅ 使用 | ✅ 使用 |
不确定性 | ❌ 无 | ❌ 无 | ✅ 完整量化 |
等价形式 | min−logP(D∣θ)\min -\log P(D|\theta)min−logP(D∣θ) | min[−logP(D∣θ)−logP(θ)]\min [-\log P(D|\theta) - \log P(\theta)]min[−logP(D∣θ)−logP(θ)] | 无简化(完整分布) |
与正则化关系 | 无正则化 | L2正则=高斯先验 L1正则=拉普拉斯先验 | 正则化=先验分布 |
硬币例子 10次抛6正 | θ=0.6\theta=0.6θ=0.6 | θ=0.583\theta=0.583θ=0.583 (Beta(2,2)先验) | 均值=0.571 95%CI=[0.34,0.80] |
小样本 1次抛1正 | θ=1.0\theta=1.0θ=1.0 ❌极端 | θ=0.67\theta=0.67θ=0.67 ✅合理 | 均值=0.6 CI=[0.16,0.95] ✅最优 |
大样本行为 | 不变 | → MLE | 后验集中于真值 |
预测 | P(xnew∣θ^)P(x_{new}|\hat{\theta})P(xnew∣θ^) | P(xnew∣θ^)P(x_{new}|\hat{\theta})P(xnew∣θ^) | ∫P(xnew∣θ)P(θ∣D)dθ\int P(x_{new}|\theta)P(\theta|D)d\theta∫P(xnew∣θ)P(θ∣D)dθ |
计算复杂度 | 低 ⚡ | 中 ⚡⚡ | 高 ⚡⚡⚡ |
优化方法 | 梯度下降、牛顿法 | 梯度下降、L-BFGS | MCMC、变分推断 |
主要优点 | • 简单快速 • 无主观性 • 渐近最优 | • 防止过拟合 • 利用先验 • 小样本稳健 | • 完整不确定性 • 自动传播误差 • 理论最优 |
主要缺点 | • 小样本过拟合 • 无不确定性 • 极端估计 | • 仍无不确定性 • 先验主观 • 点估计局限 | • 计算昂贵 • 高维困难 • 先验依赖 |
适用场景 | 大数据、快速原型 | 正则化、中等数据 | 小样本、高风险决策 |
典型应用 | 神经网络(无正则) 极大似然估计 | 神经网络(L2/Dropout) Ridge/Lasso回归 | 医疗诊断 金融风险 贝叶斯优化 |
何时使用 | n>10000n>10000n>10000 且无先验 | 需要正则化或有先验 | 需要不确定性量化 |
三者关系
MLE→+先验MAP→保留完整分布Full Bayes\text{MLE} \xrightarrow{+先验} \text{MAP} \xrightarrow{保留完整分布} \text{Full Bayes}MLE+先验 MAP保留完整分布 Full Bayes
- 均匀先验时: MAP = MLE
- 大样本时: MAP ≈ MLE,Full Bayes 集中
- 小样本时: Full Bayes > MAP > MLE
快速决策
如果你需要... | 选择 |
---|---|
速度 | MLE |
防过拟合 | MAP |
不确定性 | Full Bayes |