第六章:Linear Regression (2) --- Regularized Least Squares --- 单元习题
总分:100分 | 建议用时:60分钟
范围:正则化、L1/L2范数、Ridge/Lasso、正规方程的病态问题
占位图

一、单项选择题(每题2分,共20题,40分)
1. 正则化的主要目的是?
A. 提高训练速度
B. 添加约束/惩罚以改善泛化、防止过拟合
C. 增加模型参数数量
D. 使模型完全拟合训练数据
2. 正则化框架 min E D ( w ) + λ E w ( w ) \min\\mathbf{E}_{\\mathcal{D}}(w) + \\lambda \\mathbf{E}_{\\mathbf{w}}(w) minED(w)+λEw(w) 中, λ \lambda λ是?
A. 模型参数,通过梯度下降学习
B. 超参数,控制正则化强度
C. 学习率
D. 数据的维度
3. 拉格朗日松弛中,约束 Reg ( w ) ≤ C \text{Reg}(w) \leq C Reg(w)≤C 被转化为?
A. 直接忽略约束
B. 在目标函数中添加惩罚项 λ ⋅ Reg ( w ) \lambda \cdot \text{Reg}(w) λ⋅Reg(w)
C. 增加更多约束
D. 减少数据量
4. 范数 ∥ w ∥ 2 \|w\|_2 ∥w∥2(L2范数)的公式是?
A. ∑ d ∣ w d ∣ \sum_d |w_d| ∑d∣wd∣
B. ∑ d w d 2 \sqrt{\sum_d w_d^2} ∑dwd2
C. max d ∣ w d ∣ \max_d |w_d| maxd∣wd∣
D. ∑ d w d \sum_d w_d ∑dwd
5. L1范数的几何形状是什么?
A. 圆形
B. 正方形
C. 菱形
D. 三角形
6. L2正则化(Ridge回归)的闭式解是?
A. w ∗ = ( X T X ) − 1 X T t \mathbf{w}^* = (\mathbb{X}^T\mathbb{X})^{-1}\mathbb{X}^T\mathbf{t} w∗=(XTX)−1XTt
B. w ∗ = ( X T X + λ I ) − 1 X T t \mathbf{w}^* = (\mathbb{X}^T\mathbb{X} + \lambda\mathbf{I})^{-1}\mathbb{X}^T\mathbf{t} w∗=(XTX+λI)−1XTt
C. w ∗ = ( X T X − λ I ) − 1 X T t \mathbf{w}^* = (\mathbb{X}^T\mathbb{X} - \lambda\mathbf{I})^{-1}\mathbb{X}^T\mathbf{t} w∗=(XTX−λI)−1XTt
D. w ∗ = X T ( X X T + λ I ) − 1 t \mathbf{w}^* = \mathbb{X}^T(\mathbb{X}\mathbb{X}^T + \lambda\mathbf{I})^{-1}\mathbf{t} w∗=XT(XXT+λI)−1t
7. Ridge回归中 X T X + λ I \mathbb{X}^T\mathbb{X} + \lambda\mathbf{I} XTX+λI一定可逆,因为?
A. λ \lambda λ使矩阵变为正定矩阵
B. X T X \mathbb{X}^T\mathbb{X} XTX本来就一定可逆
C. λ \lambda λ减少了数据量
D. 不需要可逆
8. L1正则化(Lasso)相比L2(Ridge)的独特优势是?
A. 有闭式解
B. 产生稀疏解(部分权重恰好为0)→自动特征选择
C. 计算更快
D. 不需要选择 λ \lambda λ
9. 当 λ → 0 \lambda \to 0 λ→0时,Ridge回归趋近于?
A. 所有权重为0
B. 普通最小二乘(OLS)
C. Lasso回归
D. 随机猜测
10. 当 λ → ∞ \lambda \to \infty λ→∞时,Ridge回归的权重会?
A. 保持不变
B. 趋近于0(截距除外)
C. 变得非常大
D. 随机变化
11. 条件数(Condition Number)很大说明?
A. 数据质量很好
B. 矩阵求逆数值稳定
C. 数据中微小噪声会导致权重剧烈波动
D. 模型泛化能力很强
12. Ridge Trick如何改善病态问题?
A. 减少特征数量
B. 在每个特征值上加 λ \lambda λ→缩小条件数→稳定求逆
C. 增加数据量
D. 使用不同的误差函数
13. Moore-Penrose伪逆使用什么矩阵分解?
A. LU分解
B. QR分解
C. Cholesky分解
D. SVD(奇异值分解)
14. 伪逆中,对过小的奇异值 σ i \sigma_i σi如何处理?
A. 直接求倒数
B. 设为0(不翻转)
C. 乘以常数
D. 随机扰动
15. SGD(随机梯度下降)相比正规方程的优势是?
A. 一定能找到全局最优
B. 适合大规模数据(无需矩阵求逆)
C. 不需要学习率
D. 总是更快
16. X T X \mathbb{X}^T\mathbb{X} XTX不可逆的常见原因是?
A. 数据量N=0
B. 特征之间存在完美多重共线性
C. 使用了基函数
D. 目标值太小
17. 关于Ridge和Lasso,正确的是?
A. Ridge有闭式解,Lasso通常没有闭式解需迭代优化
B. Lasso有闭式解,Ridge需要迭代优化
C. 两者都有闭式解
D. 两者都没有闭式解
18. L2范数的约束区域是圆形,这意味着?
A. 解在圆的内部随机分布
B. 误差等高线与圆的切点处得到解
C. 解只能在圆心
D. 约束无效
19. L1正则化产生稀疏解的原因是?
A. L1范数可导
B. 菱形约束区域→等高线容易与角点相交→产生零权重
C. L1范数比L2大
D. L1范数计算更快
20. 下列关于条件数 κ = σ m a x 2 / σ m i n 2 \kappa = \sigma_{max}^2/\sigma_{min}^2 κ=σmax2/σmin2的说法,正确的是?
A. κ \kappa κ越小越好(接近1)
B. κ \kappa κ越大越好
C. κ \kappa κ与数值稳定性无关
D. κ = 0 \kappa=0 κ=0是最优的
二、判断题(每题2分,共15题,30分。正确打√,错误打×)
21. 正则化仅适用于线性模型,不能用于神经网络。( )
22. 拉格朗日松弛将约束优化问题转化为无约束优化问题。( )
23. ∥ w ∥ 1 = ∑ d ∣ w d ∣ \|w\|_1 = \sum_d |w_d| ∥w∥1=∑d∣wd∣ 是L1范数。( )
24. Ridge回归中 λ = 0 \lambda=0 λ=0等价于普通最小二乘。( )
25. Lasso回归有闭式解。( )
26. X T X + λ I \mathbb{X}^T\mathbb{X} + \lambda\mathbf{I} XTX+λI( λ > 0 \lambda>0 λ>0)是正定矩阵,必然可逆。( )
27. Ridge Trick通过减小特征值来稳定求逆。( )
28. Moore-Penrose伪逆可以处理 X T X \mathbb{X}^T\mathbb{X} XTX不可逆的情况。( )
29. SGD每次使用全部训练数据计算梯度。( )
30. 条件数很大意味着求解 w ∗ \mathbf{w}^* w∗对数据噪声敏感。( )
31. Ridge回归的正则化通常也包括截距 w 0 w_0 w0。( )
32. L1正则化的菱形约束使解倾向于在坐标轴上→稀疏性。( )
33. SVD分解形式为 X = U Σ V T \mathbb{X} = U\Sigma V^T X=UΣVT,其中 Σ \Sigma Σ是对角矩阵。( )
34. 正则化强度 λ \lambda λ可以通过验证集来选择。( )
35. 病态问题中即使 X T X \mathbb{X}^T\mathbb{X} XTX可逆,数值解也可能不稳定。( )
三、简答题(每题4分,共5题,20分)
36. 请解释正则化的拉格朗日松弛:如何将约束优化 min E D ( w ) \min E_D(w) minED(w) s.t. Reg ( w ) ≤ C \text{Reg}(w)\leq C Reg(w)≤C 转化为无约束优化? λ \lambda λ的作用是什么?
37. 请对比L1正则化(Lasso)和L2正则化(Ridge):惩罚项、解的稀疏性、几何解释、是否有闭式解。
38. 什么是病态问题(Illconditioning)?Ridge Trick如何通过条件数的变化来缓解它?
39. 请简述Moore-Penrose伪逆的基本思想,以及它如何处理小奇异值。
40. SGD(随机梯度下降)相比正规方程有什么优势和劣势?
四、计算题(每题5分,共2题,10分)
41. 使用与第五章相同的数据( ( 1 , 2 ) , ( 2 , 3 ) , ( 3 , 5 ) (1,2),(2,3),(3,5) (1,2),(2,3),(3,5)),进行Ridge回归( λ = 1 \lambda=1 λ=1,仅正则化 w 1 w_1 w1,不惩罚 w 0 w_0 w0):
(1) 写出Ridge的误差函数 E r i d g e ( w 0 , w 1 ) E_{ridge}(w_0, w_1) Eridge(w0,w1)。
(2) 对 w 1 w_1 w1求导并置零,求 w 1 ∗ w_1^* w1∗(保留 w 0 w_0 w0的表达式)。已知普通最小二乘的 w 1 ∗ = 1.5 w_1^*=1.5 w1∗=1.5,Ridge的 w 1 ∗ w_1^* w1∗应该更大还是更小?
42. 已知某设计矩阵 X T X \mathbb{X}^T\mathbb{X} XTX的特征值为 σ 1 2 = 100 \sigma_1^2=100 σ12=100和 σ 2 2 = 0.01 \sigma_2^2=0.01 σ22=0.01。
(1) 计算原始条件数 κ \kappa κ。
(2) 使用 λ = 1 \lambda=1 λ=1的Ridge正则化后,计算新的条件数 κ r i d g e \kappa_{ridge} κridge。
(3) 解释条件数从(1)到(2)的变化说明了什么。
试卷结束,请认真检查。
第六章:Linear Regression (2) --- 单元习题答案
一、单项选择题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 1 | B | 正则化=添加约束/惩罚→限制复杂度→改善泛化 |
| 2 | B | λ \lambda λ是超参数(训练中不变),控制正则化强度 |
| 3 | B | 拉格朗日松弛:约束→惩罚项 λ ⋅ Reg ( w ) \lambda\cdot\text{Reg}(w) λ⋅Reg(w) |
| 4 | B | L2= ∑ w d 2 \sqrt{\sum w_d^2} ∑wd2 ;L1= ∑ ∣ w d ∣ \sum|w_d| ∑∣wd∣;L∞= max ∣ w d ∣ \max|w_d| max∣wd∣ |
| 5 | C | L1=菱形,L2=圆形,L∞=正方形 |
| 6 | B | Ridge闭式解: w ∗ = ( X T X + λ I ) − 1 X T t \mathbf{w}^*=(\mathbb{X}^T\mathbb{X}+\lambda\mathbf{I})^{-1}\mathbb{X}^T\mathbf{t} w∗=(XTX+λI)−1XTt |
| 7 | A | λ > 0 \lambda>0 λ>0→ X T X + λ I \mathbb{X}^T\mathbb{X}+\lambda\mathbf{I} XTX+λI正定→必然可逆 |
| 8 | B | L1菱形→角点相交→稀疏解→自动特征选择 |
| 9 | B | λ → 0 \lambda\to0 λ→0→正则化消失→退化为OLS |
| 10 | B | λ → ∞ \lambda\to\infty λ→∞→惩罚无穷大→ w → 0 w\to0 w→0 |
| 11 | C | 条件数大=病态→数值不稳定→噪声放大 |
| 12 | B | σ i 2 → σ i 2 + λ \sigma_i^2\to\sigma_i^2+\lambda σi2→σi2+λ→条件数缩小→稳定 |
| 13 | D | 伪逆基于SVD: X = U Σ V T \mathbb{X}=U\Sigma V^T X=UΣVT→ X + = V Σ + U T \mathbb{X}^+=V\Sigma^+U^T X+=VΣ+UT |
| 14 | B | σ i < ε σ m a x \sigma_i<\varepsilon\sigma_{max} σi<εσmax→设为0(不翻转小奇异值) |
| 15 | B | SGD无需矩阵求逆→适合大规模/在线学习 |
| 16 | B | 完美多重共线性→列不满秩→ det = 0 \det=0 det=0→不可逆 |
| 17 | A | Ridge有闭式解(二次);Lasso无闭式解(绝对值不可导) |
| 18 | B | 解=误差等高线与约束区域(圆/菱形)的切点 |
| 19 | B | 菱形有尖角→等高线容易碰到角点→某些 w d = 0 w_d=0 wd=0 |
| 20 | A | κ ≈ 1 \kappa\approx1 κ≈1=各方向均匀→数值稳定; κ ≫ 1 \kappa\gg1 κ≫1=病态 |
二、判断题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 21 | × | 正则化适用于任何模型(NN中=权重衰减/L1/L2/Dropout等) |
| 22 | √ | 拉格朗日松弛=约束→惩罚项→无约束优化 |
| 23 | √ | L1=绝对值和 |
| 24 | √ | λ = 0 \lambda=0 λ=0→正则化项消失→退化为OLS |
| 25 | × | L1含绝对值→不可导→无闭式解,需迭代优化 |
| 26 | √ | λ > 0 \lambda>0 λ>0→正定→行列式>0→可逆 |
| 27 | × | Ridge是增加 特征值( σ i 2 + λ \sigma_i^2+\lambda σi2+λ),非减小 |
| 28 | √ | 伪逆不依赖 X T X \mathbb{X}^T\mathbb{X} XTX可逆→适用于任何情况 |
| 29 | × | SGD每次用一个或小批量数据;BGD用全部数据 |
| 30 | √ | 条件数大=对噪声敏感=权重不稳定 |
| 31 | × | 通常不对截距 w 0 w_0 w0正则化(截距不控制复杂度) |
| 32 | √ | 菱形角点在坐标轴上→解倾向于某些 w d = 0 w_d=0 wd=0 |
| 33 | √ | SVD: X = U Σ V T \mathbb{X}=U\Sigma V^T X=UΣVT, Σ \Sigma Σ对角 |
| 34 | √ | 通过验证集性能选择 λ \lambda λ(网格搜索) |
| 35 | √ | 可逆但条件数大→数值计算中仍不稳定 |
三、简答题参考答案
36. 拉格朗日松弛
参考答案:
原约束优化 : min E D ( w ) \min \mathbf{E}_{\mathcal{D}}(w) minED(w) s.t. Reg ( w ) ≤ C \text{Reg}(w) \leq C Reg(w)≤C
松弛后 : E ( w ) = E D ( w ) + λ ⋅ Reg ( w ) \mathbf{E}(w) = \mathbf{E}_{\mathcal{D}}(w) + \lambda \cdot \text{Reg}(w) E(w)=ED(w)+λ⋅Reg(w)
- 将硬约束 Reg ( w ) ≤ C \text{Reg}(w)\leq C Reg(w)≤C → 软惩罚 λ ⋅ Reg ( w ) \lambda\cdot\text{Reg}(w) λ⋅Reg(w)
- λ \lambda λ的作用:惩罚强度
- λ \lambda λ小→约束松→模型复杂
- λ \lambda λ大→惩罚重→模型简单
- 注:常数项 − λ C -\lambda C −λC不影响优化被省略
37. L1 vs L2对比
参考答案:
| 维度 | L2 (Ridge) | L1 (Lasso) |
|---|---|---|
| 惩罚项 | λ ∑ w d 2 \lambda\sum w_d^2 λ∑wd2 | λ ∑ ∣ w d ∣ \lambda\sum|w_d| λ∑∣wd∣ |
| 解的稀疏性 | 收缩但不为0 | 稀疏(部分=0) |
| 几何约束 | 圆形 | 菱形 |
| 闭式解 | ✅ ( X T X + λ I ) − 1 X T t (\mathbb{X}^T\mathbb{X}+\lambda I)^{-1}\mathbb{X}^T\mathbf{t} (XTX+λI)−1XTt | ❌ 需迭代优化 |
| 特征选择 | ❌ | ✅ 自动 |
38. 病态问题与Ridge Trick
参考答案:
病态问题 : X T X \mathbb{X}^T\mathbb{X} XTX可逆但条件数 κ = σ m a x 2 / σ m i n 2 ≫ 1 \kappa=\sigma_{max}^2/\sigma_{min}^2\gg1 κ=σmax2/σmin2≫1→微小噪声导致权重剧烈波动。
Ridge Trick : X T X → X T X + λ I \mathbb{X}^T\mathbb{X}\to\mathbb{X}^T\mathbb{X}+\lambda I XTX→XTX+λI
- 特征值: σ i 2 → σ i 2 + λ \sigma_i^2 \to \sigma_i^2 + \lambda σi2→σi2+λ
- 新条件数: κ r i d g e = σ m a x 2 + λ σ m i n 2 + λ < σ m a x 2 σ m i n 2 = κ \kappa_{ridge} = \frac{\sigma_{max}^2+\lambda}{\sigma_{min}^2+\lambda} < \frac{\sigma_{max}^2}{\sigma_{min}^2} = \kappa κridge=σmin2+λσmax2+λ<σmin2σmax2=κ
- λ \lambda λ提升所有特征值→ κ \kappa κ减小→求逆更稳定
39. Moore-Penrose伪逆
参考答案:
SVD分解 : X = U Σ V T \mathbb{X} = U\Sigma V^T X=UΣVT, Σ = diag ( σ 1 , ... , σ r ) \Sigma=\text{diag}(\sigma_1,\ldots,\sigma_r) Σ=diag(σ1,...,σr)
伪逆 : X + = V Σ + U T \mathbb{X}^+ = V\Sigma^+ U^T X+=VΣ+UT
处理小奇异值 :
Σ i i + = { 1 / σ i if σ i > ε σ m a x 0 otherwise \Sigma^+{ii} = \begin{cases} 1/\sigma_i & \text{if } \sigma_i > \varepsilon\sigma{max} \\ 0 & \text{otherwise} \end{cases} Σii+={1/σi0if σi>εσmaxotherwise
- 仅"翻转"显著非零的奇异值→安全的求逆
- 小奇异值(接近0)→设为0(不翻转)→避免数值爆炸
- w ∗ = X + t \mathbf{w}^* = \mathbb{X}^+ \mathbf{t} w∗=X+t适用于任意 X \mathbb{X} X
40. SGD vs 正规方程
参考答案:
| SGD | 正规方程 | |
|---|---|---|
| 优势 | 无需矩阵求逆( O ( D 3 ) O(D^3) O(D3))→适合大规模/高维;可在线学习 | 一步到位→精确解;小数据量时简单 |
| 劣势 | 需调学习率;收敛慢;梯度有噪声 | 需 X T X \mathbb{X}^T\mathbb{X} XTX可逆;大D时代价高 |
四、计算题参考答案
41. Ridge回归计算
(1) Ridge误差函数
E r i d g e ( w 0 , w 1 ) = 1 2 ∑ n = 1 3 ( t n − w 0 − w 1 x n ) 2 + λ 2 w 1 2 E_{ridge}(w_0, w_1) = \frac{1}{2}\sum_{n=1}^{3}(t_n - w_0 - w_1 x_n)^2 + \frac{\lambda}{2}w_1^2 Eridge(w0,w1)=21n=1∑3(tn−w0−w1xn)2+2λw12
代入数据:
= 1 2 ( 2 − w 0 − w 1 ) 2 + ( 3 − w 0 − 2 w 1 ) 2 + ( 5 − w 0 − 3 w 1 ) 2 + 1 2 w 1 2 = \frac{1}{2}(2-w_0-w_1)\^2 + (3-w_0-2w_1)\^2 + (5-w_0-3w_1)\^2 + \frac{1}{2}w_1^2 =21(2−w0−w1)2+(3−w0−2w1)2+(5−w0−3w1)2+21w12
(2) 对 w 1 w_1 w1求导
∂ E ∂ w 1 = − ( 2 − w 0 − w 1 ) + 2 ( 3 − w 0 − 2 w 1 ) + 3 ( 5 − w 0 − 3 w 1 ) + w 1 \frac{\partial E}{\partial w_1} = -(2-w_0-w_1) + 2(3-w_0-2w_1) + 3(5-w_0-3w_1) + w_1 ∂w1∂E=−(2−w0−w1)+2(3−w0−2w1)+3(5−w0−3w1)+w1
= − 2 − w 0 − w 1 + 6 − 2 w 0 − 4 w 1 + 15 − 3 w 0 − 9 w 1 + w 1 = -2-w_0-w_1 + 6-2w_0-4w_1 + 15-3w_0-9w_1 + w_1 =−2−w0−w1+6−2w0−4w1+15−3w0−9w1+w1
= − 23 − 6 w 0 − 14 w 1 + w 1 = 0 = -23 - 6w_0 - 14w_1 + w_1 = 0 =−23−6w0−14w1+w1=0
− 23 + 6 w 0 + 14 w 1 + w 1 = 0 -23 + 6w_0 + 14w_1 + w_1 = 0 −23+6w0+14w1+w1=0
15 w 1 = 23 − 6 w 0 15w_1 = 23 - 6w_0 15w1=23−6w0
w 1 ∗ = 23 − 6 w 0 15 w_1^* = \frac{23 - 6w_0}{15} w1∗=1523−6w0
对比OLS的 w 1 ∗ = 1.5 w_1^*=1.5 w1∗=1.5:Ridge由于 λ = 1 \lambda=1 λ=1的惩罚→ w 1 w_1 w1被收缩(更小)。
42. 条件数计算
(1) 原始条件数
κ = σ m a x 2 σ m i n 2 = 100 0.01 = 10000 \kappa = \frac{\sigma_{max}^2}{\sigma_{min}^2} = \frac{100}{0.01} = \mathbf{10000} κ=σmin2σmax2=0.01100=10000
(2) Ridge条件数( λ = 1 \lambda=1 λ=1)
κ r i d g e = σ m a x 2 + λ σ m i n 2 + λ = 100 + 1 0.01 + 1 = 101 1.01 ≈ 100 \kappa_{ridge} = \frac{\sigma_{max}^2 + \lambda}{\sigma_{min}^2 + \lambda} = \frac{100 + 1}{0.01 + 1} = \frac{101}{1.01} \approx \mathbf{100} κridge=σmin2+λσmax2+λ=0.01+1100+1=1.01101≈100
(3) 分析
- 条件数从10000→100,缩小了100倍!
- λ = 1 \lambda=1 λ=1对所有特征值加了1→小特征值0.01→1.01(大幅提升),大特征值100→101(几乎不变)
- →小特征值方向不再"塌缩"→求逆稳定→权重不再因噪声剧烈波动
答案编制完成时间:2026年6月28日