机器学习与模式识别 第八章 MAP与偏方差 考点压缩

第八章:Regression (Cont.) and Bias-Variance Trade-off --- 知识点笔记

综合来源:Lecture 08 PDF(55页)、课堂笔记(CSDN)


占位图

8.1 先验信念与MAP ⭐⭐

MLE的问题

  • MLE仅用数据→小数据/噪声多→可能拟合极端权重
  • MLE没有机制编码"权重应该较小/合理"

MAP(最大后验估计)

贝叶斯法则 :p(w∣t)∝p(t∣w)×p(w)p(\mathbf{w}|\mathbf{t}) \propto p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(w∣t)∝p(t∣w)×p(w)

w^MAP=arg⁡max⁡wp(w∣t)=arg⁡max⁡wp(t∣w)×p(w)\hat{\mathbf{w}}{MAP} = \arg\max{\mathbf{w}} p(\mathbf{w}|\mathbf{t}) = \arg\max_{\mathbf{w}} p(\\mathbf{t}\|\\mathbf{w}) \\times p(\\mathbf{w})w^MAP=argwmaxp(w∣t)=argwmaxp(t∣w)×p(w)

取负对数→最大化→最小化:

w^MAP=arg⁡min⁡w−ln⁡p(t∣w)−ln⁡p(w)\hat{\mathbf{w}}{MAP} = \arg\min{\mathbf{w}} -\\ln p(\\mathbf{t}\|\\mathbf{w}) - \\ln p(\\mathbf{w})w^MAP=argwmin−lnp(t∣w)−lnp(w)

高斯先验 → Ridge ⭐⭐⭐

先验假设 :wj∼N(0,τ2)w_j \sim \mathcal{N}(0, \tau^2)wj∼N(0,τ2)(权重小、中心在0)

p(w)=∏j12πτ2e−wj2/2τ2p(\mathbf{w}) = \prod_j \frac{1}{\sqrt{2\pi\tau^2}} e^{-w_j^2/2\tau^2}p(w)=j∏2πτ2 1e−wj2/2τ2

MAP目标

w^MAP=arg⁡min⁡w12σ2∑n(tn−wTϕ(xn))2+12τ2∥w∥22\hat{\mathbf{w}}{MAP} = \arg\min{\mathbf{w}} \left\\frac{1}{2\\sigma\^2}\\sum_n(t_n - \\mathbf{w}\^T\\phi(\\mathbf{x}_n))\^2 + \\frac{1}{2\\tau\^2}\\\|\\mathbf{w}\\\|_2\^2\\rightw^MAP=argwmin2σ21n∑(tn−wTϕ(xn))2+2τ21∥w∥22

乘以σ2\sigma^2σ2:

=arg⁡min⁡w12∑n(tn−wTϕ(xn))2+σ22τ2∥w∥22= \arg\min_{\mathbf{w}} \left\\frac{1}{2}\\sum_n(t_n - \\mathbf{w}\^T\\phi(\\mathbf{x}_n))\^2 + \\frac{\\sigma\^2}{2\\tau\^2}\\\|\\mathbf{w}\\\|_2\^2\\right=argwmin21n∑(tn−wTϕ(xn))2+2τ2σ2∥w∥22

λ=σ2τ2\lambda = \frac{\sigma^2}{\tau^2}λ=τ2σ2

核心结论MAP(高斯先验)= Ridge回归!

  • L2正则化 = 假设权重服从高斯先验分布
  • λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2:数据噪声大→λ\lambdaλ大;先验强(τ2\tau^2τ2小)→λ\lambdaλ大

MLE vs MAP 类比

频率学派(MLE) 贝叶斯学派(MAP)
使用 仅数据 数据 + 先验信念
硬币例子 MLE=1.0(仅HH) 后验均值=0.58(结合先验5/10)
回归 最小二乘 Ridge回归

8.2 偏差-方差分解 ⭐⭐⭐

学习的基本挑战

  • 拟合数据:解释已观测到的
  • 泛化到世界:预测未来、解释未观测到的

三个误差来源

来源 定义 可控?
噪声(Noise) 数据固有随机波动 ❌ 不可控(通常)
偏差(Bias) 期望预测值与真实值之间的偏差 ✅ 模型选择
方差(Variance) 不同训练集下预测值的变异性 ✅ 模型复杂度

推导 ⭐

假设 t=h(x)+ϵt = h(\mathbf{x}) + \epsilont=h(x)+ϵ,Eϵ=0\mathbb{E}\\epsilon=0Eϵ=0,varϵ=σ2\text{var}\\epsilon=\sigma^2varϵ=σ2

E(t−fw(x))2=E(t−h(x))2⏟Noise+(h(x)−Efw(x))2⏟Bias2+E(E\[fw(x)−fw(x))2]⏟Variance\mathbb{E}(t - f_{\\mathbf{w}}(\\mathbf{x}))\^2 = \underbrace{\mathbb{E}(t - h(\\mathbf{x}))\^2}{\text{Noise}} + \underbrace{(h(\mathbf{x}) - \mathbb{E}f_{\\mathbf{w}}(\\mathbf{x}))^2}{\text{Bias}^2} + \underbrace{\mathbb{E}(\\mathbb{E}\[f_{\\mathbf{w}}(\\mathbf{x}) - f_{\mathbf{w}}(\mathbf{x}))^2]}_{\text{Variance}}E(t−fw(x))2=Noise E(t−h(x))2+Bias2 (h(x)−Efw(x))2+Variance E(E\[fw(x)−fw(x))2]

期望预测误差 = 噪声 + 偏差² + 方差

偏差-方差权衡图

复制代码
          误差
           ↑
           |    Total Error
           |   /          \
           |  /            \_____ Variance
           | /    Bias²           \
           |/______________________\____
           |                        Model Complexity →
           简单                      复杂

如何控制模型复杂度

方法 效果
特征数量 减少→更简单→更高偏差+更低方差
特征选择 选不同基函数→不同偏置
正则化λ\lambdaλ λ\lambdaλ↑→更简单→更高偏差+更低方差

λ\lambdaλ的偏差-方差效应

  • λ\lambdaλ小→模型复杂→低偏差+高方差(过拟合)
  • λ\lambdaλ大→模型简单→高偏差+低方差(欠拟合)
  • 最优λ\lambdaλ通过验证集确定!

8.3 双重下降(Double Descent)预览

来自CSDN笔记:

  • 传统U型曲线:模型复杂度↑→测试误差先降后升
  • 双重下降:过参数化后→测试误差再次下降!
  • 大模型+继续训练→可能获得更低测试误差
  • 实操建议:大模型不一定需要早停

笔记中的图片索引

序号 图片内容描述 来源位置
图1 硬币例子:先验→后验更新 Lecture 08 第4页
图2 偏差-方差分解推导过程 Lecture 08 第20-36页
图3 偏差-方差权衡经典U型图 Lecture 08 第37页
图4 λ\lambdaλ对偏差-方差的影响 Lecture 08 第39页
图5 sin(2πx)拟合示例 Lecture 08 第40页

笔记整理时间:2026年6月28日

相关推荐
一楼的猫1 小时前
AI写作合规技术方案:平台检测机制分析与规避策略
人工智能·学习·机器学习·ai写作
阿拉斯攀登2 小时前
Agent 核心架构:思考-行动-观察循环(ReAct)
人工智能·ai·agent·react
HyperAI超神经2 小时前
活动预告|智源/TileRT/腾讯/华为/智元创新同台,共探 AI 编译的多层级协同优化
人工智能·ai 编译器·腾讯·具身智能·矩阵乘法·算子优化·华为昇腾
在水一缸2 小时前
GLM 5.2 发布:当长上下文与智能体走向深度融合
人工智能·大模型·智能体·智谱ai·长上下文·glm-5.2
小妖同学学AI2 小时前
AI编程 AI Ping+Cline搭建自己的编程助手!
人工智能·ai编程
星马梦缘2 小时前
机器学习与模式识别 第十四章 神经网络中的反向传播 考点压缩
人工智能·机器学习·微分·反向传播
love530love2 小时前
WorkBuddy + 本地 ComfyUI MCP:免订阅费的自建方案
人工智能·windows·mcp·comfy cloud