机器学习与模式识别第八章 MAP与偏方差模拟卷及答案

第八章：Regression (Cont.) and Bias-Variance Trade-off --- 单元习题

总分：100分 | 建议用时：60分钟

范围：MAP估计、高斯先验与Ridge等价性、偏差-方差分解

占位图

一、单项选择题（每题2分，共20题，40分）

1. MAP（最大后验估计）与MLE的关键区别是？

A. MAP不需要数据

B. MAP在优化中加入了先验分布p(w)p(\mathbf{w})p(w)

C. MAP只能用于分类

D. MAP不需要似然函数

2. 贝叶斯法则中，后验p(w∣t)p(\mathbf{w}|\mathbf{t})p(w∣t)正比于什么？

A. p(t)×p(w)p(\mathbf{t}) \times p(\mathbf{w})p(t)×p(w)

B. p(t∣w)×p(w)p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(t∣w)×p(w)

C. p(w∣t)×p(t)p(\mathbf{w}|\mathbf{t}) \times p(\mathbf{t})p(w∣t)×p(t)

D. p(t)+p(w)p(\mathbf{t}) + p(\mathbf{w})p(t)+p(w)

3. 对权重施加高斯先验N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)时，MAP估计等价于？

A. 普通最小二乘

B. L1正则化（Lasso）

C. L2正则化（Ridge回归）

D. 弹性网（Elastic Net）

4. MAP中，Ridge的λ\lambdaλ与先验方差τ2\tau^2τ2和数据噪声σ2\sigma^2σ2的关系是？

A. λ=τ2⋅σ2\lambda = \tau^2 \cdot \sigma^2λ=τ2⋅σ2

B. λ=σ2/τ2\lambda = \sigma^2 / \tau^2λ=σ2/τ2

C. λ=τ2/σ2\lambda = \tau^2 / \sigma^2λ=τ2/σ2

D. λ=σ2+τ2\lambda = \sigma^2 + \tau^2λ=σ2+τ2

5. 高斯先验中，τ2\tau^2τ2很小（强先验）意味着？

A. 权重可以很大

B. 强烈偏好权重接近0→强正则化

C. 先验不影响结果

D. 先验等同于无信息

6. 期望预测误差的偏差-方差分解公式为？

A. Error = Noise + Bias + Variance

B. Error = Noise + Bias² + Variance

C. Error = Noise² + Bias + Variance²

D. Error = Noise × Bias × Variance

7. 偏差（Bias）衡量的是什么？

A. 预测值在不同训练集间的波动

B. 期望预测值与真实值之间的差距

C. 数据中的固有噪声

D. 模型参数的数量

8. 方差（Variance）衡量的是什么？

A. 期望预测值与真实值的偏差

B. 数据固有随机性

C. 不同训练集下预测值的变化程度

D. 模型参数的绝对值大小

9. 过拟合时，偏差和方差通常呈现出什么特征？

A. 高偏差 + 高方差

B. 低偏差 + 高方差

C. 高偏差 + 低方差

D. 低偏差 + 低方差

10. 增大正则化参数λ\lambdaλ会导致？

A. 偏差增大，方差减小

B. 偏差减小，方差增大

C. 偏差和方差都增大

D. 偏差和方差都减小

11. 在偏差-方差权衡图中，总误差曲线呈现什么形状？

A. 一直上升

B. 一直下降

C. U型（先降后升）

D. 水平直线

12. 以下哪个是噪声（Noise）的正确描述？

A. 可以通过更好的模型完全消除

B. 数据中固有的不可约随机波动

C. 等于偏差和方差之和

D. 只存在于训练数据中

13. 在硬币例子中，先验h0=t0=5h_0=t_0=5h0=t0=5，观测到HH两次正面后，MAP后验均值约为？

A. 1.0（仅看数据）

B. 0.5（仅看先验）

C. 0.58（先验+数据折中）

D. 0（无信息）

14. 频率学派(MLE)和贝叶斯学派(MAP)的核心差异是？

A. 使用的数学不同

B. MLE仅用数据；MAP结合数据和先验信念

C. MAP不需要计算

D. MLE总是更好

15. MAP目标函数−ln⁡p(t∣w)−ln⁡p(w)-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})−lnp(t∣w)−lnp(w)中，第一项对应什么？

A. 正则化项

B. 数据拟合项（误差函数）

C. 先验项

D. 常数项

16. 高斯先验下，MAP的负对数后验包含12τ2∥w∥22\frac{1}{2\tau^2}\|\mathbf{w}\|_2^22τ21∥w∥22项，这相当于？

A. 使权重尽可能大

B. 偏好较小的权重值

C. 不对权重施加任何偏好

D. 强制权重恰好为0

17. 若τ2→∞\tau^2 \to \inftyτ2→∞（极弱先验），MAP趋近于？

A. Ridge回归（强正则化）

B. MLE（无正则化）

C. 所有权重为零

D. Lasso回归

18. 最优正则化参数λ\lambdaλ通常如何确定？

A. 随机选择

B. 通过训练集误差最小化

C. 通过验证集选择

D. 固定为1

19. 下列哪项不会影响模型的偏差？

A. 模型族的选择（线性vs非线性）

B. 特征的选择

C. 训练数据的随机噪声

D. 基函数的选择

20. 关于偏差-方差权衡，以下错误的是？

A. 简单模型→高偏差+低方差

B. 复杂模型→低偏差+高方差

C. 可以通过增加数据量来减少噪声项

D. 最优模型在偏差和方差之间取得平衡

二、判断题（每题2分，共15题，30分。正确打√，错误打×）

21. MAP估计=最大后验估计，在贝叶斯框架下结合先验和数据。（）

22. 高斯先验N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)假设权重大概率接近0。（）

23. MAP + 高斯先验 ⇔ Lasso回归（L1正则化）。（）

24. λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2中，数据噪声越大→λ\lambdaλ越大→正则化越强。（）

25. 偏差² + 方差 + 噪声 = 期望预测误差。（）

26. 噪声项可以通过增大训练数据量来减小。（）

27. 正则化通过增加偏差来减少方差，从而可能改善泛化。（）

28. λ=0\lambda=0λ=0时MAP退化回MLE。（）

29. 偏差衡量模型在不同训练集上预测的一致性。（）

30. 过拟合=低偏差+高方差；欠拟合=高偏差+低方差。（）

31. 贝叶斯更新=先验+观测数据→后验信念。（）

32. 验证集用于选择λ\lambdaλ，测试集用于最终评估。（）

33. 模型越复杂，偏差越大，方差越小。（）

34. 增加训练数据量通常可以减少方差。（）

35. 在偏差-方差分解推导中利用了ϵ\epsilonϵ与w\mathbf{w}w的独立性。（）

三、简答题（每题5分，共4题，20分）

36. 请从MAP估计出发，推导高斯先验w∼N(0,τ2)\mathbf{w}\sim\mathcal{N}(0,\tau^2)w∼N(0,τ2)如何等价于Ridge回归（L2正则化），并解释λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2的含义。

37. 请写出期望预测误差的偏差-方差分解公式，并分别解释噪声、偏差²和方差三项的含义。

38. 请解释正则化参数λ\lambdaλ如何影响偏差-方差权衡：λ\lambdaλ从小到大变化时偏差和方差如何变化？为什么需要通过验证集选择λ\lambdaλ？

39. 请对比MLE和MAP两种估计方法的异同（硬币例子可以辅助说明）。

四、计算题（每题5分，共2题，10分）

40. 已知先验w∼N(0,τ2=4)w \sim \mathcal{N}(0, \tau^2=4)w∼N(0,τ2=4)，噪声ϵ∼N(0,σ2=1)\epsilon \sim \mathcal{N}(0, \sigma^2=1)ϵ∼N(0,σ2=1)。

(1) 计算对应的Ridge正则化参数λ\lambdaλ。

(2) 若增加更多数据后，数据噪声估计减小为σ2=0.25\sigma^2=0.25σ2=0.25，新的λ\lambdaλ是多少？正则化是变强了还是变弱了？

41. 某模型在测试点x\mathbf{x}x上的预测表现如下：

真实函数值 h(x)=5h(\mathbf{x}) = 5h(x)=5
期望预测 E $fw(x)$ =4\mathbb{E} $f_{\\mathbf{w}}(\\mathbf{x})$ = 4E $fw(x)$ =4
预测方差 var $fw(x)$ =1.5\text{var} $f_{\\mathbf{w}}(\\mathbf{x})$ = 1.5var $fw(x)$ =1.5
噪声方差 σ2=0.5\sigma^2 = 0.5σ2=0.5

计算：(1) 偏差²；(2) 期望预测误差 E $(t-fw(x))2$ \mathbb{E} $(t - f_{\\mathbf{w}}(\\mathbf{x}))\^2$ E $(t-fw(x))2$ 。

试卷结束，请认真检查。

第八章：Regression (Cont.) and Bias-Variance Trade-off --- 单元习题答案

一、单项选择题答案

题号	答案	解析
1	B	MAP=$\arg\max[p(\mathbf{t}
2	B	贝叶斯：$p(\mathbf{w}
3	C	高斯先验→−ln⁡p(w)∝∣w∣22-\ln p(\mathbf{w})\propto\|\mathbf{w}\|_2^2−lnp(w)∝∣w∣22→L2=Ridge
4	B	λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2（乘σ2\sigma^2σ2消除噪声方差系数）
5	B	τ2\tau^2τ2小→λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2大→强正则化
6	B	Error=Noise+Bias²+Variance
7	B	偏差=E $fw$ −h\mathbb{E} $f_{\\mathbf{w}}$ -hE $fw$ −h，期望预测与真实的差距
8	C	方差=预测值在不同训练集间的波动
9	B	过拟合=拟合太贴→低偏差+高方差
10	A	λ\lambdaλ↑→限制更强→模型更简单→偏差↑+方差↓
11	C	总误差=U型曲线，最优在底部
12	B	噪声=数据固有随机性→不可约
13	C	(5+2)/(10+2)=7/12≈0.58
14	B	MLE仅数据；MAP=数据+先验
15	B	$-\ln p(\mathbf{t}
16	B	12τ2∣w∣2\frac{1}{2\tau^2}\|w\|^22τ21∣w∣2→惩罚大权重→偏好小w
17	B	τ2→∞\tau^2\to\inftyτ2→∞→λ→0\lambda\to0λ→0→退化为MLE
18	C	最优λ\lambdaλ通过验证集选择（网格搜索）
19	C	噪声不可控；偏差取决于模型族/特征/基函数选择
20	C	噪声=不可约→不能通过增加数据消除

二、判断题答案

题号	答案	解析
21	√	MAP=Max A Posteriori=贝叶斯结合的估计
22	√	N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)中心在0→偏好小权重
23	×	高斯先验→L2(Ridge)；拉普拉斯先验→L1(Lasso)
24	√	λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2，σ2\sigma^2σ2↑→λ\lambdaλ↑
25	√	Error=Noise+Bias²+Variance
26	×	噪声=不可约（固有随机性），增加数据不能消除
27	√	正则化=偏差↑+方差↓→可能改善泛化
28	√	λ=0\lambda=0λ=0=无正则化→MAP退化为MLE
29	×	那是方差→不同训练集间预测一致性
30	√	过拟合=低Bias高Var；欠拟合=高Bias低Var
31	√	贝叶斯更新核心：先验+数据→后验
32	√	Val选λ\lambdaλ，Test最终评估
33	×	模型越复杂→偏差↓+方差↑
34	√	更多数据→训练集间差异减小→方差↓
35	√	ϵ\epsilonϵ独立于w\mathbf{w}w→交叉项E $ϵ$ ⋅E $\dots$ =0\mathbb{E} $\\epsilon$ \cdot\mathbb{E} $\\cdots$ =0E $ϵ$ ⋅E $\dots$ =0

三、简答题参考答案

36. MAP→Ridge推导

参考答案：

MAP ：w^MAP=arg⁡min⁡ $-lnp(t∣w)-lnp(w)$ \hat{\mathbf{w}}_{MAP}=\arg\min $-\\ln p(\\mathbf{t}\|\\mathbf{w})-\\ln p(\\mathbf{w})$ w^MAP=argmin $-lnp(t∣w)-lnp(w)$

高斯似然+高斯先验 ：

=−ln⁡∏N(tn∣wTϕ(xn),σ2)−ln⁡∏N(wj∣0,τ2)=-\ln\prod\mathcal{N}(t_n|\mathbf{w}^T\phi(\mathbf{x}_n),\sigma^2)-\ln\prod\mathcal{N}(w_j|0,\tau^2)=−ln∏N(tn∣wTϕ(xn),σ2)−ln∏N(wj∣0,τ2)

=12σ2∑(tn−wTϕ(xn))2+12τ2∑wj2+const=\frac{1}{2\sigma^2}\sum(t_n-\mathbf{w}^T\phi(\mathbf{x}_n))^2+\frac{1}{2\tau^2}\sum w_j^2+\text{const}=2σ21∑(tn−wTϕ(xn))2+2τ21∑wj2+const

乘σ2\sigma^2σ2（不影响arg⁡min⁡\arg\minargmin）：

=12∑(tn−wTϕ(xn))2+σ22τ2∑wj2=\frac{1}{2}\sum(t_n-\mathbf{w}^T\phi(\mathbf{x}_n))^2+\frac{\sigma^2}{2\tau^2}\sum w_j^2=21∑(tn−wTϕ(xn))2+2τ2σ2∑wj2

λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2的含义：

σ2\sigma^2σ2大（数据噪声大）→λ\lambdaλ大→更依赖先验（强正则化）
τ2\tau^2τ2小（强先验）→λ\lambdaλ大→权重被更强约束
λ\lambdaλ平衡了"信任数据"与"信任先验"的程度

37. 偏差-方差分解

参考答案：

E $(t-fw(x))2$ =σ2⏟Noise+(h(x)−E $fw$ )2⏟Bias2+E $(E\[fw$ −fw)2]⏟Variance\mathbb{E} $(t-f_{\\mathbf{w}}(\\mathbf{x}))\^2$ = \underbrace{\sigma^2}{\text{Noise}} + \underbrace{(h(\mathbf{x})-\mathbb{E} $f_{\\mathbf{w}}$ )^2}{\text{Bias}^2} + \underbrace{\mathbb{E} $(\\mathbb{E}\[f_{\\mathbf{w}}$ -f_{\mathbf{w}})^2]}_{\text{Variance}}E $(t-fw(x))2$ =Noise σ2+Bias2 (h(x)−E $fw$ )2+Variance E $(E\[fw$ −fw)2]

项	含义	可控？
噪声σ2\sigma^2σ2	数据中固有的不可约随机性	❌
偏差²	模型平均预测偏离真实函数的程度（欠拟合→高偏差）	✅ 模型族/特征
方差	不同训练集间预测的波动程度（过拟合→高方差）	✅ 正则化/数据量

38. λ\lambdaλ的偏差-方差效应

参考答案：

λ\lambdaλ	模型	偏差	方差	状态
太小(→0)	复杂	低	高	过拟合
适中	平衡	中	中	Sweet Spot
太大(→∞)	简单	高	低	欠拟合

为何通过验证集选择λ\lambdaλ ：训练误差随λ\lambdaλ单调增→不能反映泛化。验证集反映泛化性能→找到最小验证误差的λ\lambdaλ。

39. MLE vs MAP

参考答案：

	MLE（频率学派）	MAP（贝叶斯学派）
目标	max⁡p(D∣θ)\max p(\mathcal{D}\|\theta)maxp(D∣θ)	max⁡p(D∣θ)p(θ)\max p(\mathcal{D}\|\theta)p(\theta)maxp(D∣θ)p(θ)
使用信息	仅数据	数据+先验信念
硬币HH	θ^MLE=1.0\hat{\theta}_{MLE}=1.0θ^MLE=1.0	θ^MAP≈0.58\hat{\theta}_{MAP}\approx0.58θ^MAP≈0.58（结合先验5/10）
回归	最小二乘	Ridge回归(L2)
小数据	可能过拟合	先验提供正则化→更稳定

四、计算题参考答案

40. λ\lambdaλ计算

(1)

λ=σ2τ2=14=0.25\lambda = \frac{\sigma^2}{\tau^2} = \frac{1}{4} = \mathbf{0.25}λ=τ2σ2=41=0.25

(2) σ2=0.25\sigma^2=0.25σ2=0.25：

λnew=0.254=0.0625\lambda_{new} = \frac{0.25}{4} = \mathbf{0.0625}λnew=40.25=0.0625

λ\lambdaλ从0.25→0.0625，减小了 →正则化变弱了。

数据噪声减小→数据更可靠→减少对先验的依赖→λ\lambdaλ变小。

41. 偏差-方差分解计算

(1) 偏差²

Bias=E $fw$ −h(x)=4−5=−1\text{Bias} = \mathbb{E} $f_{\\mathbf{w}}$ - h(\mathbf{x}) = 4 - 5 = -1Bias=E $fw$ −h(x)=4−5=−1

Bias2=(−1)2=1.0\text{Bias}^2 = (-1)^2 = \mathbf{1.0}Bias2=(−1)2=1.0

(2) 期望预测误差

E $(t-fw)2$ =σ2+Bias2+Variance\mathbb{E} $(t-f_{\\mathbf{w}})\^2$ = \sigma^2 + \text{Bias}^2 + \text{Variance}E $(t-fw)2$ =σ2+Bias2+Variance

=0.5+1.0+1.5=3.0= 0.5 + 1.0 + 1.5 = \mathbf{3.0}=0.5+1.0+1.5=3.0

误差来源分解：噪声0.5 + 偏差² 1.0 + 方差1.5 = 3.0。方差是最大贡献者→可考虑正则化或更多数据来降低。

答案编制完成时间：2026年6月28日

机器学习与模式识别 第八章 MAP与偏方差 模拟卷及答案

第八章：Regression (Cont.) and Bias-Variance Trade-off --- 单元习题

一、单项选择题（每题2分，共20题，40分）

二、判断题（每题2分，共15题，30分。正确打√，错误打×）

三、简答题（每题5分，共4题，20分）

四、计算题（每题5分，共2题，10分）

第八章：Regression (Cont.) and Bias-Variance Trade-off --- 单元习题答案

一、单项选择题答案

二、判断题答案

三、简答题参考答案

36. MAP→Ridge推导

37. 偏差-方差分解

38. λ\lambdaλ的偏差-方差效应

39. MLE vs MAP

四、计算题参考答案

40. λ\lambdaλ计算

41. 偏差-方差分解计算

机器学习与模式识别第八章 MAP与偏方差模拟卷及答案