机器学习与模式识别第八章 MAP与偏方差考点压缩

第八章：Regression (Cont.) and Bias-Variance Trade-off --- 知识点笔记

综合来源：Lecture 08 PDF（55页）、课堂笔记（CSDN）

占位图

8.1 先验信念与MAP ⭐⭐

MLE的问题

MLE仅用数据→小数据/噪声多→可能拟合极端权重
MLE没有机制编码"权重应该较小/合理"

MAP（最大后验估计）

贝叶斯法则 ：p(w∣t)∝p(t∣w)×p(w)p(\mathbf{w}|\mathbf{t}) \propto p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(w∣t)∝p(t∣w)×p(w)

w^MAP=arg⁡max⁡wp(w∣t)=arg⁡max⁡w $p(t∣w)\timesp(w)$ \hat{\mathbf{w}}{MAP} = \arg\max{\mathbf{w}} p(\mathbf{w}|\mathbf{t}) = \arg\max_{\mathbf{w}} $p(\\mathbf{t}\|\\mathbf{w}) \\times p(\\mathbf{w})$ w^MAP=argwmaxp(w∣t)=argwmax $p(t∣w)\timesp(w)$

取负对数→最大化→最小化：

w^MAP=arg⁡min⁡w $-lnp(t∣w)-lnp(w)$ \hat{\mathbf{w}}{MAP} = \arg\min{\mathbf{w}} $-\\ln p(\\mathbf{t}\|\\mathbf{w}) - \\ln p(\\mathbf{w})$ w^MAP=argwmin $-lnp(t∣w)-lnp(w)$

高斯先验 → Ridge ⭐⭐⭐

先验假设 ：wj∼N(0,τ2)w_j \sim \mathcal{N}(0, \tau^2)wj∼N(0,τ2)（权重小、中心在0）

p(w)=∏j12πτ2e−wj2/2τ2p(\mathbf{w}) = \prod_j \frac{1}{\sqrt{2\pi\tau^2}} e^{-w_j^2/2\tau^2}p(w)=j∏2πτ2 1e−wj2/2τ2

MAP目标 ：

w^MAP=arg⁡min⁡w $12σ2\sumn(tn-wTϕ(xn))2+12τ2∥w∥22$ \hat{\mathbf{w}}{MAP} = \arg\min{\mathbf{w}} \left $\\frac{1}{2\\sigma\^2}\\sum_n(t_n - \\mathbf{w}\^T\\phi(\\mathbf{x}_n))\^2 + \\frac{1}{2\\tau\^2}\\\|\\mathbf{w}\\\|_2\^2\\right$ w^MAP=argwmin $2σ21n\sum(tn-wTϕ(xn))2+2τ21∥w∥22$

乘以σ2\sigma^2σ2：

=arg⁡min⁡w $12\sumn(tn-wTϕ(xn))2+σ22τ2∥w∥22$ = \arg\min_{\mathbf{w}} \left $\\frac{1}{2}\\sum_n(t_n - \\mathbf{w}\^T\\phi(\\mathbf{x}_n))\^2 + \\frac{\\sigma\^2}{2\\tau\^2}\\\|\\mathbf{w}\\\|_2\^2\\right$ =argwmin $21n\sum(tn-wTϕ(xn))2+2τ2σ2∥w∥22$

λ=σ2τ2\lambda = \frac{\sigma^2}{\tau^2}λ=τ2σ2

核心结论 ：MAP（高斯先验）= Ridge回归！

L2正则化 = 假设权重服从高斯先验分布

λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2：数据噪声大→λ\lambdaλ大；先验强(τ2\tau^2τ2小)→λ\lambdaλ大

MLE vs MAP 类比

	频率学派(MLE)	贝叶斯学派(MAP)
使用	仅数据	数据 + 先验信念
硬币例子	MLE=1.0(仅HH)	后验均值=0.58(结合先验5/10)
回归	最小二乘	Ridge回归

8.2 偏差-方差分解 ⭐⭐⭐

学习的基本挑战

拟合数据：解释已观测到的
泛化到世界：预测未来、解释未观测到的

三个误差来源

来源	定义	可控？
噪声（Noise）	数据固有随机波动	❌ 不可控（通常）
偏差（Bias）	期望预测值与真实值之间的偏差	✅ 模型选择
方差（Variance）	不同训练集下预测值的变异性	✅ 模型复杂度

推导 ⭐

假设 t=h(x)+ϵt = h(\mathbf{x}) + \epsilont=h(x)+ϵ，E $ϵ$ =0\mathbb{E} $\\epsilon$ =0E $ϵ$ =0，var $ϵ$ =σ2\text{var} $\\epsilon$ =\sigma^2var $ϵ$ =σ2

E $(t-fw(x))2$ =E $(t-h(x))2$ ⏟Noise+(h(x)−E $fw(x)$ )2⏟Bias2+E $(E\[fw(x)$ −fw(x))2]⏟Variance\mathbb{E} $(t - f_{\\mathbf{w}}(\\mathbf{x}))\^2$ = \underbrace{\mathbb{E} $(t - h(\\mathbf{x}))\^2$ }{\text{Noise}} + \underbrace{(h(\mathbf{x}) - \mathbb{E} $f_{\\mathbf{w}}(\\mathbf{x})$ )^2}{\text{Bias}^2} + \underbrace{\mathbb{E} $(\\mathbb{E}\[f_{\\mathbf{w}}(\\mathbf{x})$ - f_{\mathbf{w}}(\mathbf{x}))^2]}_{\text{Variance}}E $(t-fw(x))2$ =Noise E $(t-h(x))2$ +Bias2 (h(x)−E $fw(x)$ )2+Variance E $(E\[fw(x)$ −fw(x))2]

期望预测误差 = 噪声 + 偏差² + 方差

偏差-方差权衡图

复制代码

          误差
           ↑
           |    Total Error
           |   /          \
           |  /            \_____ Variance
           | /    Bias²           \
           |/______________________\____
           |                        Model Complexity →
           简单                      复杂

如何控制模型复杂度

方法	效果
特征数量	减少→更简单→更高偏差+更低方差
特征选择	选不同基函数→不同偏置
正则化λ\lambdaλ	λ\lambdaλ↑→更简单→更高偏差+更低方差

λ\lambdaλ的偏差-方差效应

λ\lambdaλ小→模型复杂→低偏差+高方差（过拟合）
λ\lambdaλ大→模型简单→高偏差+低方差（欠拟合）
最优λ\lambdaλ通过验证集确定！

8.3 双重下降（Double Descent）预览

来自CSDN笔记：

传统U型曲线：模型复杂度↑→测试误差先降后升
双重下降：过参数化后→测试误差再次下降！
大模型+继续训练→可能获得更低测试误差
实操建议：大模型不一定需要早停

笔记中的图片索引

序号	图片内容描述	来源位置
图1	硬币例子：先验→后验更新	Lecture 08 第4页
图2	偏差-方差分解推导过程	Lecture 08 第20-36页
图3	偏差-方差权衡经典U型图	Lecture 08 第37页
图4	λ\lambdaλ对偏差-方差的影响	Lecture 08 第39页
图5	sin(2πx)拟合示例	Lecture 08 第40页

笔记整理时间：2026年6月28日

机器学习与模式识别 第八章 MAP与偏方差 考点压缩