第八章:Regression (Cont.) and Bias-Variance Trade-off --- 单元习题
总分:100分 | 建议用时:60分钟
范围:MAP估计、高斯先验与Ridge等价性、偏差-方差分解
占位图

一、单项选择题(每题2分,共20题,40分)
1. MAP(最大后验估计)与MLE的关键区别是?
A. MAP不需要数据
B. MAP在优化中加入了先验分布p(w)p(\mathbf{w})p(w)
C. MAP只能用于分类
D. MAP不需要似然函数
2. 贝叶斯法则中,后验p(w∣t)p(\mathbf{w}|\mathbf{t})p(w∣t)正比于什么?
A. p(t)×p(w)p(\mathbf{t}) \times p(\mathbf{w})p(t)×p(w)
B. p(t∣w)×p(w)p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(t∣w)×p(w)
C. p(w∣t)×p(t)p(\mathbf{w}|\mathbf{t}) \times p(\mathbf{t})p(w∣t)×p(t)
D. p(t)+p(w)p(\mathbf{t}) + p(\mathbf{w})p(t)+p(w)
3. 对权重施加高斯先验N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)时,MAP估计等价于?
A. 普通最小二乘
B. L1正则化(Lasso)
C. L2正则化(Ridge回归)
D. 弹性网(Elastic Net)
4. MAP中,Ridge的λ\lambdaλ与先验方差τ2\tau^2τ2和数据噪声σ2\sigma^2σ2的关系是?
A. λ=τ2⋅σ2\lambda = \tau^2 \cdot \sigma^2λ=τ2⋅σ2
B. λ=σ2/τ2\lambda = \sigma^2 / \tau^2λ=σ2/τ2
C. λ=τ2/σ2\lambda = \tau^2 / \sigma^2λ=τ2/σ2
D. λ=σ2+τ2\lambda = \sigma^2 + \tau^2λ=σ2+τ2
5. 高斯先验中,τ2\tau^2τ2很小(强先验)意味着?
A. 权重可以很大
B. 强烈偏好权重接近0→强正则化
C. 先验不影响结果
D. 先验等同于无信息
6. 期望预测误差的偏差-方差分解公式为?
A. Error = Noise + Bias + Variance
B. Error = Noise + Bias² + Variance
C. Error = Noise² + Bias + Variance²
D. Error = Noise × Bias × Variance
7. 偏差(Bias)衡量的是什么?
A. 预测值在不同训练集间的波动
B. 期望预测值与真实值之间的差距
C. 数据中的固有噪声
D. 模型参数的数量
8. 方差(Variance)衡量的是什么?
A. 期望预测值与真实值的偏差
B. 数据固有随机性
C. 不同训练集下预测值的变化程度
D. 模型参数的绝对值大小
9. 过拟合时,偏差和方差通常呈现出什么特征?
A. 高偏差 + 高方差
B. 低偏差 + 高方差
C. 高偏差 + 低方差
D. 低偏差 + 低方差
10. 增大正则化参数λ\lambdaλ会导致?
A. 偏差增大,方差减小
B. 偏差减小,方差增大
C. 偏差和方差都增大
D. 偏差和方差都减小
11. 在偏差-方差权衡图中,总误差曲线呈现什么形状?
A. 一直上升
B. 一直下降
C. U型(先降后升)
D. 水平直线
12. 以下哪个是噪声(Noise)的正确描述?
A. 可以通过更好的模型完全消除
B. 数据中固有的不可约随机波动
C. 等于偏差和方差之和
D. 只存在于训练数据中
13. 在硬币例子中,先验h0=t0=5h_0=t_0=5h0=t0=5,观测到HH两次正面后,MAP后验均值约为?
A. 1.0(仅看数据)
B. 0.5(仅看先验)
C. 0.58(先验+数据折中)
D. 0(无信息)
14. 频率学派(MLE)和贝叶斯学派(MAP)的核心差异是?
A. 使用的数学不同
B. MLE仅用数据;MAP结合数据和先验信念
C. MAP不需要计算
D. MLE总是更好
15. MAP目标函数−lnp(t∣w)−lnp(w)-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})−lnp(t∣w)−lnp(w)中,第一项对应什么?
A. 正则化项
B. 数据拟合项(误差函数)
C. 先验项
D. 常数项
16. 高斯先验下,MAP的负对数后验包含12τ2∥w∥22\frac{1}{2\tau^2}\|\mathbf{w}\|_2^22τ21∥w∥22项,这相当于?
A. 使权重尽可能大
B. 偏好较小的权重值
C. 不对权重施加任何偏好
D. 强制权重恰好为0
17. 若τ2→∞\tau^2 \to \inftyτ2→∞(极弱先验),MAP趋近于?
A. Ridge回归(强正则化)
B. MLE(无正则化)
C. 所有权重为零
D. Lasso回归
18. 最优正则化参数λ\lambdaλ通常如何确定?
A. 随机选择
B. 通过训练集误差最小化
C. 通过验证集选择
D. 固定为1
19. 下列哪项不会影响模型的偏差?
A. 模型族的选择(线性vs非线性)
B. 特征的选择
C. 训练数据的随机噪声
D. 基函数的选择
20. 关于偏差-方差权衡,以下错误的是?
A. 简单模型→高偏差+低方差
B. 复杂模型→低偏差+高方差
C. 可以通过增加数据量来减少噪声项
D. 最优模型在偏差和方差之间取得平衡
二、判断题(每题2分,共15题,30分。正确打√,错误打×)
21. MAP估计=最大后验估计,在贝叶斯框架下结合先验和数据。( )
22. 高斯先验N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)假设权重大概率接近0。( )
23. MAP + 高斯先验 ⇔ Lasso回归(L1正则化)。( )
24. λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2中,数据噪声越大→λ\lambdaλ越大→正则化越强。( )
25. 偏差² + 方差 + 噪声 = 期望预测误差。( )
26. 噪声项可以通过增大训练数据量来减小。( )
27. 正则化通过增加偏差来减少方差,从而可能改善泛化。( )
28. λ=0\lambda=0λ=0时MAP退化回MLE。( )
29. 偏差衡量模型在不同训练集上预测的一致性。( )
30. 过拟合=低偏差+高方差;欠拟合=高偏差+低方差。( )
31. 贝叶斯更新=先验+观测数据→后验信念。( )
32. 验证集用于选择λ\lambdaλ,测试集用于最终评估。( )
33. 模型越复杂,偏差越大,方差越小。( )
34. 增加训练数据量通常可以减少方差。( )
35. 在偏差-方差分解推导中利用了ϵ\epsilonϵ与w\mathbf{w}w的独立性。( )
三、简答题(每题5分,共4题,20分)
36. 请从MAP估计出发,推导高斯先验w∼N(0,τ2)\mathbf{w}\sim\mathcal{N}(0,\tau^2)w∼N(0,τ2)如何等价于Ridge回归(L2正则化),并解释λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2的含义。
37. 请写出期望预测误差的偏差-方差分解公式,并分别解释噪声、偏差²和方差三项的含义。
38. 请解释正则化参数λ\lambdaλ如何影响偏差-方差权衡:λ\lambdaλ从小到大变化时偏差和方差如何变化?为什么需要通过验证集选择λ\lambdaλ?
39. 请对比MLE和MAP两种估计方法的异同(硬币例子可以辅助说明)。
四、计算题(每题5分,共2题,10分)
40. 已知先验w∼N(0,τ2=4)w \sim \mathcal{N}(0, \tau^2=4)w∼N(0,τ2=4),噪声ϵ∼N(0,σ2=1)\epsilon \sim \mathcal{N}(0, \sigma^2=1)ϵ∼N(0,σ2=1)。
(1) 计算对应的Ridge正则化参数λ\lambdaλ。
(2) 若增加更多数据后,数据噪声估计减小为σ2=0.25\sigma^2=0.25σ2=0.25,新的λ\lambdaλ是多少?正则化是变强了还是变弱了?
41. 某模型在测试点x\mathbf{x}x上的预测表现如下:
- 真实函数值 h(x)=5h(\mathbf{x}) = 5h(x)=5
- 期望预测 Efw(x)=4\mathbb{E}f_{\\mathbf{w}}(\\mathbf{x}) = 4Efw(x)=4
- 预测方差 varfw(x)=1.5\text{var}f_{\\mathbf{w}}(\\mathbf{x}) = 1.5varfw(x)=1.5
- 噪声方差 σ2=0.5\sigma^2 = 0.5σ2=0.5
计算:(1) 偏差²;(2) 期望预测误差 E(t−fw(x))2\mathbb{E}(t - f_{\\mathbf{w}}(\\mathbf{x}))\^2E(t−fw(x))2。
试卷结束,请认真检查。
第八章:Regression (Cont.) and Bias-Variance Trade-off --- 单元习题答案
一、单项选择题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 1 | B | MAP=$\arg\max[p(\mathbf{t} |
| 2 | B | 贝叶斯:$p(\mathbf{w} |
| 3 | C | 高斯先验→−lnp(w)∝∣w∣22-\ln p(\mathbf{w})\propto|\mathbf{w}|_2^2−lnp(w)∝∣w∣22→L2=Ridge |
| 4 | B | λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2(乘σ2\sigma^2σ2消除噪声方差系数) |
| 5 | B | τ2\tau^2τ2小→λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2大→强正则化 |
| 6 | B | Error=Noise+Bias²+Variance |
| 7 | B | 偏差=Efw−h\mathbb{E}f_{\\mathbf{w}}-hEfw−h,期望预测与真实的差距 |
| 8 | C | 方差=预测值在不同训练集间的波动 |
| 9 | B | 过拟合=拟合太贴→低偏差+高方差 |
| 10 | A | λ\lambdaλ↑→限制更强→模型更简单→偏差↑+方差↓ |
| 11 | C | 总误差=U型曲线,最优在底部 |
| 12 | B | 噪声=数据固有随机性→不可约 |
| 13 | C | (5+2)/(10+2)=7/12≈0.58 |
| 14 | B | MLE仅数据;MAP=数据+先验 |
| 15 | B | $-\ln p(\mathbf{t} |
| 16 | B | 12τ2∣w∣2\frac{1}{2\tau^2}|w|^22τ21∣w∣2→惩罚大权重→偏好小w |
| 17 | B | τ2→∞\tau^2\to\inftyτ2→∞→λ→0\lambda\to0λ→0→退化为MLE |
| 18 | C | 最优λ\lambdaλ通过验证集选择(网格搜索) |
| 19 | C | 噪声不可控;偏差取决于模型族/特征/基函数选择 |
| 20 | C | 噪声=不可约→不能通过增加数据消除 |
二、判断题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 21 | √ | MAP=Max A Posteriori=贝叶斯结合的估计 |
| 22 | √ | N(0,τ2)\mathcal{N}(0,\tau^2)N(0,τ2)中心在0→偏好小权重 |
| 23 | × | 高斯先验→L2(Ridge);拉普拉斯先验→L1(Lasso) |
| 24 | √ | λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2,σ2\sigma^2σ2↑→λ\lambdaλ↑ |
| 25 | √ | Error=Noise+Bias²+Variance |
| 26 | × | 噪声=不可约(固有随机性),增加数据不能消除 |
| 27 | √ | 正则化=偏差↑+方差↓→可能改善泛化 |
| 28 | √ | λ=0\lambda=0λ=0=无正则化→MAP退化为MLE |
| 29 | × | 那是方差→不同训练集间预测一致性 |
| 30 | √ | 过拟合=低Bias高Var;欠拟合=高Bias低Var |
| 31 | √ | 贝叶斯更新核心:先验+数据→后验 |
| 32 | √ | Val选λ\lambdaλ,Test最终评估 |
| 33 | × | 模型越复杂→偏差↓+方差↑ |
| 34 | √ | 更多数据→训练集间差异减小→方差↓ |
| 35 | √ | ϵ\epsilonϵ独立于w\mathbf{w}w→交叉项Eϵ⋅E⋯ =0\mathbb{E}\\epsilon\cdot\mathbb{E}\\cdots=0Eϵ⋅E⋯=0 |
三、简答题参考答案
36. MAP→Ridge推导
参考答案:
MAP :w^MAP=argmin−lnp(t∣w)−lnp(w)\hat{\mathbf{w}}_{MAP}=\arg\min-\\ln p(\\mathbf{t}\|\\mathbf{w})-\\ln p(\\mathbf{w})w^MAP=argmin−lnp(t∣w)−lnp(w)
高斯似然+高斯先验 :
=−ln∏N(tn∣wTϕ(xn),σ2)−ln∏N(wj∣0,τ2)=-\ln\prod\mathcal{N}(t_n|\mathbf{w}^T\phi(\mathbf{x}_n),\sigma^2)-\ln\prod\mathcal{N}(w_j|0,\tau^2)=−ln∏N(tn∣wTϕ(xn),σ2)−ln∏N(wj∣0,τ2)
=12σ2∑(tn−wTϕ(xn))2+12τ2∑wj2+const=\frac{1}{2\sigma^2}\sum(t_n-\mathbf{w}^T\phi(\mathbf{x}_n))^2+\frac{1}{2\tau^2}\sum w_j^2+\text{const}=2σ21∑(tn−wTϕ(xn))2+2τ21∑wj2+const
乘σ2\sigma^2σ2(不影响argmin\arg\minargmin):
=12∑(tn−wTϕ(xn))2+σ22τ2∑wj2=\frac{1}{2}\sum(t_n-\mathbf{w}^T\phi(\mathbf{x}_n))^2+\frac{\sigma^2}{2\tau^2}\sum w_j^2=21∑(tn−wTϕ(xn))2+2τ2σ2∑wj2
λ=σ2/τ2\lambda=\sigma^2/\tau^2λ=σ2/τ2的含义:
- σ2\sigma^2σ2大(数据噪声大)→λ\lambdaλ大→更依赖先验(强正则化)
- τ2\tau^2τ2小(强先验)→λ\lambdaλ大→权重被更强约束
- λ\lambdaλ平衡了"信任数据"与"信任先验"的程度
37. 偏差-方差分解
参考答案:
E(t−fw(x))2=σ2⏟Noise+(h(x)−Efw)2⏟Bias2+E(E\[fw−fw)2]⏟Variance\mathbb{E}(t-f_{\\mathbf{w}}(\\mathbf{x}))\^2 = \underbrace{\sigma^2}{\text{Noise}} + \underbrace{(h(\mathbf{x})-\mathbb{E}f_{\\mathbf{w}})^2}{\text{Bias}^2} + \underbrace{\mathbb{E}(\\mathbb{E}\[f_{\\mathbf{w}}-f_{\mathbf{w}})^2]}_{\text{Variance}}E(t−fw(x))2=Noise σ2+Bias2 (h(x)−Efw)2+Variance E(E\[fw−fw)2]
| 项 | 含义 | 可控? |
|---|---|---|
| 噪声σ2\sigma^2σ2 | 数据中固有的不可约随机性 | ❌ |
| 偏差² | 模型平均预测偏离真实函数的程度(欠拟合→高偏差) | ✅ 模型族/特征 |
| 方差 | 不同训练集间预测的波动程度(过拟合→高方差) | ✅ 正则化/数据量 |
38. λ\lambdaλ的偏差-方差效应
参考答案:
| λ\lambdaλ | 模型 | 偏差 | 方差 | 状态 |
|---|---|---|---|---|
| 太小(→0) | 复杂 | 低 | 高 | 过拟合 |
| 适中 | 平衡 | 中 | 中 | Sweet Spot |
| 太大(→∞) | 简单 | 高 | 低 | 欠拟合 |
为何通过验证集选择λ\lambdaλ :训练误差随λ\lambdaλ单调增→不能反映泛化。验证集反映泛化性能→找到最小验证误差的λ\lambdaλ。
39. MLE vs MAP
参考答案:
| MLE(频率学派) | MAP(贝叶斯学派) | |
|---|---|---|
| 目标 | maxp(D∣θ)\max p(\mathcal{D}|\theta)maxp(D∣θ) | maxp(D∣θ)p(θ)\max p(\mathcal{D}|\theta)p(\theta)maxp(D∣θ)p(θ) |
| 使用信息 | 仅数据 | 数据+先验信念 |
| 硬币HH | θ^MLE=1.0\hat{\theta}_{MLE}=1.0θ^MLE=1.0 | θ^MAP≈0.58\hat{\theta}_{MAP}\approx0.58θ^MAP≈0.58(结合先验5/10) |
| 回归 | 最小二乘 | Ridge回归(L2) |
| 小数据 | 可能过拟合 | 先验提供正则化→更稳定 |
四、计算题参考答案
40. λ\lambdaλ计算
(1)
λ=σ2τ2=14=0.25\lambda = \frac{\sigma^2}{\tau^2} = \frac{1}{4} = \mathbf{0.25}λ=τ2σ2=41=0.25
(2) σ2=0.25\sigma^2=0.25σ2=0.25:
λnew=0.254=0.0625\lambda_{new} = \frac{0.25}{4} = \mathbf{0.0625}λnew=40.25=0.0625
λ\lambdaλ从0.25→0.0625,减小了 →正则化变弱了。
数据噪声减小→数据更可靠→减少对先验的依赖→λ\lambdaλ变小。
41. 偏差-方差分解计算
(1) 偏差²
Bias=Efw−h(x)=4−5=−1\text{Bias} = \mathbb{E}f_{\\mathbf{w}} - h(\mathbf{x}) = 4 - 5 = -1Bias=Efw−h(x)=4−5=−1
Bias2=(−1)2=1.0\text{Bias}^2 = (-1)^2 = \mathbf{1.0}Bias2=(−1)2=1.0
(2) 期望预测误差
E(t−fw)2=σ2+Bias2+Variance\mathbb{E}(t-f_{\\mathbf{w}})\^2 = \sigma^2 + \text{Bias}^2 + \text{Variance}E(t−fw)2=σ2+Bias2+Variance
=0.5+1.0+1.5=3.0= 0.5 + 1.0 + 1.5 = \mathbf{3.0}=0.5+1.0+1.5=3.0
误差来源分解:噪声0.5 + 偏差² 1.0 + 方差1.5 = 3.0。方差是最大贡献者→可考虑正则化或更多数据来降低。
答案编制完成时间:2026年6月28日