机器学习与模式识别 第八章 MAP与偏方差 模拟卷及答案

第八章:Regression (Cont.) and Bias-Variance Trade-off --- 单元习题

总分:100分 | 建议用时:60分钟

范围:MAP估计、高斯先验与Ridge等价性、偏差-方差分解


占位图

一、单项选择题(每题2分,共20题,40分)

1. MAP(最大后验估计)与MLE的关键区别是?

A. MAP不需要数据

B. MAP在优化中加入了先验分布p(w)p(\mathbf{w})p(w)

C. MAP只能用于分类

D. MAP不需要似然函数

2. 贝叶斯法则中,后验p(w∣t)p(\mathbf{w}|\mathbf{t})p(w∣t)正比于什么?

A. p(t)×p(w)p(\mathbf{t}) \times p(\mathbf{w})p(t)×p(w)

B. p(t∣w)×p(w)p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(t∣w)×p(w)

C. p(w∣t)×p(t)p(\mathbf{w}|\mathbf{t}) \times p(\mathbf{t})p(w∣t)×p(t)

D. p(t)+p(w)p(\mathbf{t}) + p(\mathbf{w})p(t)+p(w)

3. 对权重施加高斯先验N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)时,MAP估计等价于?

A. 普通最小二乘

B. L1正则化(Lasso)

C. L2正则化(Ridge回归)

D. 弹性网(Elastic Net)

4. MAP中,Ridge的λ\lambdaλ与先验方差τ2\tau^2τ2和数据噪声σ2\sigma^2σ2的关系是?

A. λ=τ2⋅σ2\lambda = \tau^2 \cdot \sigma^2λ=τ2⋅σ2

B. λ=σ2/τ2\lambda = \sigma^2 / \tau^2λ=σ2/τ2

C. λ=τ2/σ2\lambda = \tau^2 / \sigma^2λ=τ2/σ2

D. λ=σ2+τ2\lambda = \sigma^2 + \tau^2λ=σ2+τ2

5. 高斯先验中,τ2\tau^2τ2很小(强先验)意味着?

A. 权重可以很大

B. 强烈偏好权重接近0→强正则化

C. 先验不影响结果

D. 先验等同于无信息

6. 期望预测误差的偏差-方差分解公式为?

A. Error = Noise + Bias + Variance

B. Error = Noise + Bias² + Variance

C. Error = Noise² + Bias + Variance²

D. Error = Noise × Bias × Variance

7. 偏差(Bias)衡量的是什么?

A. 预测值在不同训练集间的波动

B. 期望预测值与真实值之间的差距

C. 数据中的固有噪声

D. 模型参数的数量

8. 方差(Variance)衡量的是什么?

A. 期望预测值与真实值的偏差

B. 数据固有随机性

C. 不同训练集下预测值的变化程度

D. 模型参数的绝对值大小

9. 过拟合时,偏差和方差通常呈现出什么特征?

A. 高偏差 + 高方差

B. 低偏差 + 高方差

C. 高偏差 + 低方差

D. 低偏差 + 低方差

10. 增大正则化参数λ\lambdaλ会导致?

A. 偏差增大,方差减小

B. 偏差减小,方差增大

C. 偏差和方差都增大

D. 偏差和方差都减小

11. 在偏差-方差权衡图中,总误差曲线呈现什么形状?

A. 一直上升

B. 一直下降

C. U型(先降后升)

D. 水平直线

12. 以下哪个是噪声(Noise)的正确描述?

A. 可以通过更好的模型完全消除

B. 数据中固有的不可约随机波动

C. 等于偏差和方差之和

D. 只存在于训练数据中

13. 在硬币例子中,先验h0=t0=5h_0=t_0=5h0=t0=5,观测到HH两次正面后,MAP后验均值约为?

A. 1.0(仅看数据)

B. 0.5(仅看先验)

C. 0.58(先验+数据折中)

D. 0(无信息)

14. 频率学派(MLE)和贝叶斯学派(MAP)的核心差异是?

A. 使用的数学不同

B. MLE仅用数据;MAP结合数据和先验信念

C. MAP不需要计算

D. MLE总是更好

15. MAP目标函数−ln⁡p(t∣w)−ln⁡p(w)-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})−lnp(t∣w)−lnp(w)中,第一项对应什么?

A. 正则化项

B. 数据拟合项(误差函数)

C. 先验项

D. 常数项

16. 高斯先验下,MAP的负对数后验包含12τ2∥w∥22\frac{1}{2\tau^2}\|\mathbf{w}\|_2^22τ21∥w∥22项,这相当于?

A. 使权重尽可能大

B. 偏好较小的权重值

C. 不对权重施加任何偏好

D. 强制权重恰好为0

17. 若τ2→∞\tau^2 \to \inftyτ2→∞(极弱先验),MAP趋近于?

A. Ridge回归(强正则化)

B. MLE(无正则化)

C. 所有权重为零

D. Lasso回归

18. 最优正则化参数λ\lambdaλ通常如何确定?

A. 随机选择

B. 通过训练集误差最小化

C. 通过验证集选择

D. 固定为1

19. 下列哪项不会影响模型的偏差?

A. 模型族的选择(线性vs非线性)

B. 特征的选择

C. 训练数据的随机噪声

D. 基函数的选择

20. 关于偏差-方差权衡,以下错误的是?

A. 简单模型→高偏差+低方差

B. 复杂模型→低偏差+高方差

C. 可以通过增加数据量来减少噪声项

D. 最优模型在偏差和方差之间取得平衡


二、判断题(每题2分,共15题,30分。正确打√,错误打×)

21. MAP估计=最大后验估计,在贝叶斯框架下结合先验和数据。( )

22. 高斯先验N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)假设权重大概率接近0。( )

23. MAP + 高斯先验 ⇔ Lasso回归(L1正则化)。( )

24. λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2中,数据噪声越大→λ\lambdaλ越大→正则化越强。( )

25. 偏差² + 方差 + 噪声 = 期望预测误差。( )

26. 噪声项可以通过增大训练数据量来减小。( )

27. 正则化通过增加偏差来减少方差,从而可能改善泛化。( )

28. λ=0\lambda=0λ=0时MAP退化回MLE。( )

29. 偏差衡量模型在不同训练集上预测的一致性。( )

30. 过拟合=低偏差+高方差;欠拟合=高偏差+低方差。( )

31. 贝叶斯更新=先验+观测数据→后验信念。( )

32. 验证集用于选择λ\lambdaλ,测试集用于最终评估。( )

33. 模型越复杂,偏差越大,方差越小。( )

34. 增加训练数据量通常可以减少方差。( )

35. 在偏差-方差分解推导中利用了ϵ\epsilonϵ与w\mathbf{w}w的独立性。( )


三、简答题(每题5分,共4题,20分)

36. 请从MAP估计出发,推导高斯先验w∼N(0,τ2)\mathbf{w}\sim\mathcal{N}(0,\tau^2)w∼N(0,τ2)如何等价于Ridge回归(L2正则化),并解释λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2的含义。

37. 请写出期望预测误差的偏差-方差分解公式,并分别解释噪声、偏差²和方差三项的含义。

38. 请解释正则化参数λ\lambdaλ如何影响偏差-方差权衡:λ\lambdaλ从小到大变化时偏差和方差如何变化?为什么需要通过验证集选择λ\lambdaλ?

39. 请对比MLE和MAP两种估计方法的异同(硬币例子可以辅助说明)。


四、计算题(每题5分,共2题,10分)

40. 已知先验w∼N(0,τ2=4)w \sim \mathcal{N}(0, \tau^2=4)w∼N(0,τ2=4),噪声ϵ∼N(0,σ2=1)\epsilon \sim \mathcal{N}(0, \sigma^2=1)ϵ∼N(0,σ2=1)。

(1) 计算对应的Ridge正则化参数λ\lambdaλ。

(2) 若增加更多数据后,数据噪声估计减小为σ2=0.25\sigma^2=0.25σ2=0.25,新的λ\lambdaλ是多少?正则化是变强了还是变弱了?

41. 某模型在测试点x\mathbf{x}x上的预测表现如下:

  • 真实函数值 h(x)=5h(\mathbf{x}) = 5h(x)=5
  • 期望预测 Efw(x)=4\mathbb{E}f_{\\mathbf{w}}(\\mathbf{x}) = 4Efw(x)=4
  • 预测方差 varfw(x)=1.5\text{var}f_{\\mathbf{w}}(\\mathbf{x}) = 1.5varfw(x)=1.5
  • 噪声方差 σ2=0.5\sigma^2 = 0.5σ2=0.5

计算:(1) 偏差²;(2) 期望预测误差 E(t−fw(x))2\mathbb{E}(t - f_{\\mathbf{w}}(\\mathbf{x}))\^2E(t−fw(x))2


试卷结束,请认真检查。

第八章:Regression (Cont.) and Bias-Variance Trade-off --- 单元习题答案


一、单项选择题答案

题号 答案 解析
1 B MAP=$\arg\max[p(\mathbf{t}
2 B 贝叶斯:$p(\mathbf{w}
3 C 高斯先验→−ln⁡p(w)∝∣w∣22-\ln p(\mathbf{w})\propto|\mathbf{w}|_2^2−lnp(w)∝∣w∣22→L2=Ridge
4 B λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2(乘σ2\sigma^2σ2消除噪声方差系数)
5 B τ2\tau^2τ2小→λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2大→强正则化
6 B Error=Noise+Bias²+Variance
7 B 偏差=Efw−h\mathbb{E}f_{\\mathbf{w}}-hEfw−h,期望预测与真实的差距
8 C 方差=预测值在不同训练集间的波动
9 B 过拟合=拟合太贴→低偏差+高方差
10 A λ\lambdaλ↑→限制更强→模型更简单→偏差↑+方差↓
11 C 总误差=U型曲线,最优在底部
12 B 噪声=数据固有随机性→不可约
13 C (5+2)/(10+2)=7/12≈0.58
14 B MLE仅数据;MAP=数据+先验
15 B $-\ln p(\mathbf{t}
16 B 12τ2∣w∣2\frac{1}{2\tau^2}|w|^22τ21∣w∣2→惩罚大权重→偏好小w
17 B τ2→∞\tau^2\to\inftyτ2→∞→λ→0\lambda\to0λ→0→退化为MLE
18 C 最优λ\lambdaλ通过验证集选择(网格搜索)
19 C 噪声不可控;偏差取决于模型族/特征/基函数选择
20 C 噪声=不可约→不能通过增加数据消除

二、判断题答案

题号 答案 解析
21 MAP=Max A Posteriori=贝叶斯结合的估计
22 N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)中心在0→偏好小权重
23 × 高斯先验→L2(Ridge);拉普拉斯先验→L1(Lasso)
24 λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2,σ2\sigma^2σ2↑→λ\lambdaλ↑
25 Error=Noise+Bias²+Variance
26 × 噪声=不可约(固有随机性),增加数据不能消除
27 正则化=偏差↑+方差↓→可能改善泛化
28 λ=0\lambda=0λ=0=无正则化→MAP退化为MLE
29 × 那是方差→不同训练集间预测一致性
30 过拟合=低Bias高Var;欠拟合=高Bias低Var
31 贝叶斯更新核心:先验+数据→后验
32 Val选λ\lambdaλ,Test最终评估
33 × 模型越复杂→偏差↓+方差↑
34 更多数据→训练集间差异减小→方差↓
35 ϵ\epsilonϵ独立于w\mathbf{w}w→交叉项Eϵ⋅E⋯ =0\mathbb{E}\\epsilon\cdot\mathbb{E}\\cdots=0Eϵ⋅E=0

三、简答题参考答案

36. MAP→Ridge推导

参考答案:

MAP :w^MAP=arg⁡min⁡−ln⁡p(t∣w)−ln⁡p(w)\hat{\mathbf{w}}_{MAP}=\arg\min-\\ln p(\\mathbf{t}\|\\mathbf{w})-\\ln p(\\mathbf{w})w^MAP=argmin−lnp(t∣w)−lnp(w)

高斯似然+高斯先验

=−ln⁡∏N(tn∣wTϕ(xn),σ2)−ln⁡∏N(wj∣0,τ2)=-\ln\prod\mathcal{N}(t_n|\mathbf{w}^T\phi(\mathbf{x}_n),\sigma^2)-\ln\prod\mathcal{N}(w_j|0,\tau^2)=−ln∏N(tn∣wTϕ(xn),σ2)−ln∏N(wj∣0,τ2)

=12σ2∑(tn−wTϕ(xn))2+12τ2∑wj2+const=\frac{1}{2\sigma^2}\sum(t_n-\mathbf{w}^T\phi(\mathbf{x}_n))^2+\frac{1}{2\tau^2}\sum w_j^2+\text{const}=2σ21∑(tn−wTϕ(xn))2+2τ21∑wj2+const

乘σ2\sigma^2σ2(不影响arg⁡min⁡\arg\minargmin):

=12∑(tn−wTϕ(xn))2+σ22τ2∑wj2=\frac{1}{2}\sum(t_n-\mathbf{w}^T\phi(\mathbf{x}_n))^2+\frac{\sigma^2}{2\tau^2}\sum w_j^2=21∑(tn−wTϕ(xn))2+2τ2σ2∑wj2

λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2的含义

  • σ2\sigma^2σ2大(数据噪声大)→λ\lambdaλ大→更依赖先验(强正则化)
  • τ2\tau^2τ2小(强先验)→λ\lambdaλ大→权重被更强约束
  • λ\lambdaλ平衡了"信任数据"与"信任先验"的程度

37. 偏差-方差分解

参考答案:

E(t−fw(x))2=σ2⏟Noise+(h(x)−Efw)2⏟Bias2+E(E\[fw−fw)2]⏟Variance\mathbb{E}(t-f_{\\mathbf{w}}(\\mathbf{x}))\^2 = \underbrace{\sigma^2}{\text{Noise}} + \underbrace{(h(\mathbf{x})-\mathbb{E}f_{\\mathbf{w}})^2}{\text{Bias}^2} + \underbrace{\mathbb{E}(\\mathbb{E}\[f_{\\mathbf{w}}-f_{\mathbf{w}})^2]}_{\text{Variance}}E(t−fw(x))2=Noise σ2+Bias2 (h(x)−Efw)2+Variance E(E\[fw−fw)2]

含义 可控?
噪声σ2\sigma^2σ2 数据中固有的不可约随机性
偏差² 模型平均预测偏离真实函数的程度(欠拟合→高偏差) ✅ 模型族/特征
方差 不同训练集间预测的波动程度(过拟合→高方差) ✅ 正则化/数据量

38. λ\lambdaλ的偏差-方差效应

参考答案:

λ\lambdaλ 模型 偏差 方差 状态
太小(→0) 复杂 过拟合
适中 平衡 Sweet Spot
太大(→∞) 简单 欠拟合

为何通过验证集选择λ\lambdaλ :训练误差随λ\lambdaλ单调增→不能反映泛化。验证集反映泛化性能→找到最小验证误差的λ\lambdaλ。


39. MLE vs MAP

参考答案:

MLE(频率学派) MAP(贝叶斯学派)
目标 max⁡p(D∣θ)\max p(\mathcal{D}|\theta)maxp(D∣θ) max⁡p(D∣θ)p(θ)\max p(\mathcal{D}|\theta)p(\theta)maxp(D∣θ)p(θ)
使用信息 仅数据 数据+先验信念
硬币HH θ^MLE=1.0\hat{\theta}_{MLE}=1.0θ^MLE=1.0 θ^MAP≈0.58\hat{\theta}_{MAP}\approx0.58θ^MAP≈0.58(结合先验5/10)
回归 最小二乘 Ridge回归(L2)
小数据 可能过拟合 先验提供正则化→更稳定

四、计算题参考答案

40. λ\lambdaλ计算

(1)

λ=σ2τ2=14=0.25\lambda = \frac{\sigma^2}{\tau^2} = \frac{1}{4} = \mathbf{0.25}λ=τ2σ2=41=0.25

(2) σ2=0.25\sigma^2=0.25σ2=0.25:

λnew=0.254=0.0625\lambda_{new} = \frac{0.25}{4} = \mathbf{0.0625}λnew=40.25=0.0625

λ\lambdaλ从0.25→0.0625,减小了 →正则化变弱了

数据噪声减小→数据更可靠→减少对先验的依赖→λ\lambdaλ变小。


41. 偏差-方差分解计算

(1) 偏差²

Bias=Efw−h(x)=4−5=−1\text{Bias} = \mathbb{E}f_{\\mathbf{w}} - h(\mathbf{x}) = 4 - 5 = -1Bias=Efw−h(x)=4−5=−1

Bias2=(−1)2=1.0\text{Bias}^2 = (-1)^2 = \mathbf{1.0}Bias2=(−1)2=1.0

(2) 期望预测误差

E(t−fw)2=σ2+Bias2+Variance\mathbb{E}(t-f_{\\mathbf{w}})\^2 = \sigma^2 + \text{Bias}^2 + \text{Variance}E(t−fw)2=σ2+Bias2+Variance

=0.5+1.0+1.5=3.0= 0.5 + 1.0 + 1.5 = \mathbf{3.0}=0.5+1.0+1.5=3.0

误差来源分解:噪声0.5 + 偏差² 1.0 + 方差1.5 = 3.0。方差是最大贡献者→可考虑正则化或更多数据来降低。


答案编制完成时间:2026年6月28日

相关推荐
liangshanbo12151 小时前
大模型混合精度训练:原理、选型与实战笔记
人工智能·深度学习
技术小黑1 小时前
CNN算法实战系列08 | ResNeXt-50算法实战与猴痘病识别
人工智能·算法·cnn
四川国阜传动设备有限公司1 小时前
如何根据电机功率正确计算减速机输出扭矩?
人工智能·搜索引擎
格子软件1 小时前
2026年GEO优化系统源码级状态机与多模型调度拆解
java·前端·vue.js·人工智能·vue·geo
数据百晓通1 小时前
重构数据治理范式:2026 主流企业级数据治理平台对标与精准选型
大数据·人工智能·重构
CTA终结者1 小时前
2026年AI量化提效,工具重点要按阶段调整
人工智能·python
zhangfeng11331 小时前
算子开发 Overwrite 覆盖/替换模式 Accumulate 累加模式,性能对比 memset错误 bat_alloc 错误
c语言·人工智能·gnu·算子开发
zzz_23682 小时前
从 200 行规则到一条好渠——Agent 工程化的踩坑与解法
人工智能·agent
Bruce_Liuxiaowei2 小时前
2026年7月第1周网络安全形势周报
人工智能·安全·web安全·ai·智能体