第十一章:Optimization and Gradient Descent --- 单元习题
总分:100分 | 建议用时:60分钟
范围:凸函数、梯度/Hessian、GD算法、收敛性、条件数、动量
占位图

一、单项选择题(每题2分,共20题,40分)
1. 梯度∇f(x)\nabla f(\mathbf{x})∇f(x)指向什么方向?
A. 最陡下降方向
B. 最陡上升方向
C. 任意方向
D. 水平方向
2. 梯度下降的更新公式是?
A. w(τ+1)=w(τ)+η∇Ew^{(\tau+1)} = w^{(\tau)} + \eta \nabla Ew(τ+1)=w(τ)+η∇E
B. w(τ+1)=w(τ)−η∇Ew^{(\tau+1)} = w^{(\tau)} - \eta \nabla Ew(τ+1)=w(τ)−η∇E
C. w(τ+1)=ηw(τ)−∇Ew^{(\tau+1)} = \eta w^{(\tau)} - \nabla Ew(τ+1)=ηw(τ)−∇E
D. w(τ+1)=w(τ)⋅∇Ew^{(\tau+1)} = w^{(\tau)} \cdot \nabla Ew(τ+1)=w(τ)⋅∇E
3. 凸函数的定义中,f(tx1+(1−t)x2)f(tx_1+(1-t)x_2)f(tx1+(1−t)x2)与tf(x1)+(1−t)f(x2)tf(x_1)+(1-t)f(x_2)tf(x1)+(1−t)f(x2)的关系是?
A. 前者 ≥\geq≥ 后者
B. 前者 ≤\leq≤ 后者
C. 前者 = 后者
D. 无关
4. 梯度为零的点称为?
A. 鞍点
B. 驻点(Stationary Point)
C. 最小值点
D. 梯度消失点
5. Hessian矩阵的特征值全部为正,该驻点是?
A. 局部最大值
B. 局部最小值
C. 鞍点
D. 无法判断
6. Hessian矩阵的特征值有正有负,该驻点是?
A. 局部最小值
B. 局部最大值
C. 鞍点
D. 全局最小值
7. 学习率η\etaη太大可能导致?
A. 收敛太慢
B. 震荡甚至发散
C. 更稳定
D. 没有影响
8. 条件数κ=λmax/λmin\kappa = \lambda_{max}/\lambda_{min}κ=λmax/λmin很小说明?
A. 病态问题,GD收敛慢
B. 良态问题,GD收敛快
C. 与GD收敛速度无关
D. 需要更多数据
9. GD收敛的充分条件是?
A. η>0\eta > 0η>0
B. ∣1−ηλi∣<1|1-\eta\lambda_i| < 1∣1−ηλi∣<1 对所有特征值λi\lambda_iλi
C. η=1\eta = 1η=1
D. 不需要条件
10. 动量的主要作用是?
A. 减小模型大小
B. 加速平坦方向收敛+平滑震荡方向
C. 替代梯度计算
D. 增加训练数据
11. 动量的更新公式包含哪两项?
A. 当前梯度 + 历史更新方向
B. 当前梯度 + 随机噪声
C. 学习率 + 正则化
D. 损失 + 梯度
12. 在平坦方向(梯度近似恒定),动量的有效学习率约为?
A. η\etaη
B. η1−μ\frac{\eta}{1-\mu}1−μη(加速)
C. η1+μ\frac{\eta}{1+\mu}1+μη(减速)
D. μη\mu\etaμη
13. 在震荡方向(梯度交替变号),动量的有效学习率约为?
A. η\etaη
B. η1−μ\frac{\eta}{1-\mu}1−μη
C. η1+μ\frac{\eta}{1+\mu}1+μη(减速)
D. 2η2\eta2η
14. 二阶泰勒展开中包含了什么信息?
A. 仅函数值
B. 函数值 + 梯度(一阶)+ Hessian(二阶曲率)
C. 仅梯度
D. 全部高阶信息
15. Gradient Descent中的"Batch"意味着?
A. 使用随机子集
B. 每次更新使用全部训练数据
C. 每次使用一个样本
D. 不计算梯度
16. 验证损失曲线先降后升说明什么?
A. 模型欠拟合
B. 模型开始过拟合→应选验证损失最低点
C. 学习率太大
D. 数据太少
17. 关于梯度∇E(w)\nabla E(w)∇E(w)的维度,正确的是?
A. 与www维度相同(D维向量)
B. 1维标量
C. 与EEE相等
D. 等于数据量N
18. 梯度位于何处?
A. 在函数曲面上
B. 在参数空间(定义域)中
C. 在数据空间中
D. 在输出空间中
19. Hessian矩阵的大小是?
A. D×1D \times 1D×1
B. 1×D1 \times D1×D
C. D×DD \times DD×D
D. N×NN \times NN×N
20. GD迭代中,二次近似下的参数更新公式为α(τ)=(1−ηλ)τα(0)\alpha^{(\tau)}=(1-\eta\lambda)^\tau\alpha^{(0)}α(τ)=(1−ηλ)τα(0),要使α→0\alpha\to0α→0,需要?
A. η>2/λ\eta>2/\lambdaη>2/λ
B. η<2/λ\eta<2/\lambdaη<2/λ
C. η=0\eta=0η=0
D. λ=0\lambda=0λ=0
二、判断题(每题2分,共15题,30分。正确打√,错误打×)
21. 凸函数上的任何局部最小值一定是全局最小值。( )
22. 深度学习的损失函数通常是凸函数。( )
23. 梯度为零一定意味着到达了最小值。( )
24. Hessian的特征值决定驻点的类型。( )
25. GD每次更新使用随机选择的一个样本。( )
26. η\etaη太小→收敛慢;η\etaη太大→可能震荡或发散。( )
27. 条件数越大,GD收敛越快。( )
28. 动量通过累积历史梯度方向来改善收敛。( )
29. 动量在平坦方向增加有效学习率,在震荡方向减少有效学习率。( )
30. 梯度在参数空间中,不在函数曲面上。( )
31. 优化问题minw∈RDf(w)\min_{w\in\mathbb{R}^D} f(w)minw∈RDf(w)是无约束优化。( )
32. 逻辑回归可以用梯度下降优化,因为其损失函数是凸的。( )
33. 批量梯度下降每次迭代的计算代价与数据量N成正比。( )
34. 收敛条件∣1−ηλi∣<1|1-\eta\lambda_i|<1∣1−ηλi∣<1对所有iii意味着η<2/λmax\eta<2/\lambda_{max}η<2/λmax。( )
35. 二次泰勒展开只能用于凸函数。( )
三、简答题(每题5分,共3题,15分)
36. 请说明梯度下降算法的基本流程(初始化→迭代→停止条件),并解释学习率η\etaη对收敛的影响。
37. 请解释动量(Momentum)如何改善梯度下降:为什么在平坦方向加速、在震荡方向减速?
38. 请说明Hessian矩阵在优化中的作用:如何通过特征值判断驻点类型?条件数与GD收敛速度有什么关系?
四、计算题(每题5分,共3题,15分)
39. 给定误差函数E(w)=(w−3)2+2E(w) = (w-3)^2 + 2E(w)=(w−3)2+2。
(1) 计算梯度∇E(w)\nabla E(w)∇E(w)和Hessian HHH。
(2) 初始w(0)=0w^{(0)}=0w(0)=0,η=0.5\eta=0.5η=0.5,执行2步梯度下降,求w(1),w(2)w^{(1)}, w^{(2)}w(1),w(2)。
(3) 最优解w∗w^*w∗是什么?经过2步后距离最优解还有多远?
40. 某目标函数的Hessian特征值为λ1=100,λ2=1\lambda_1=100, \lambda_2=1λ1=100,λ2=1。
(1) 计算条件数κ\kappaκ。
(2) 满足收敛的最大学习率ηmax\eta_{max}ηmax是多少?
(3) 若使用动量μ=0.9\mu=0.9μ=0.9,平坦方向的有效学习率是多少?
41. 判断f(w)=w12+w22f(w) = w_1^2 + w_2^2f(w)=w12+w22在原点(0,0)(0,0)(0,0)的驻点类型:
(1) 计算梯度在(0,0)(0,0)(0,0)的值。
(2) 计算Hessian矩阵。
(3) 根据Hessian特征值判断驻点类型。
试卷结束,请认真检查。
第十一章:Optimization and Gradient Descent --- 单元习题答案
一、单项选择题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 1 | B | 梯度指向最陡上升 方向;GD沿相反方向更新 |
| 2 | B | w(τ+1)=w(τ)−η∇Ew^{(\tau+1)}=w^{(\tau)}-\eta\nabla Ew(τ+1)=w(τ)−η∇E,沿负梯度方向 |
| 3 | B | 凸函数:割线在函数上方→f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)f(tx_1+(1-t)x_2)\leq tf(x_1)+(1-t)f(x_2)f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2) |
| 4 | B | 梯度=0→驻点(可能是最小值/最大值/鞍点) |
| 5 | B | 所有λi>0\lambda_i>0λi>0→沿任何方向移动误差都增加→局部最小值 |
| 6 | C | 混合特征值→某些方向增某些减→鞍点 |
| 7 | B | η\etaη太大→步长过大→可能越过最小值→震荡/发散 |
| 8 | B | κ\kappaκ小→各方向曲率均匀→GD快速收敛 |
| 9 | B | ∣1−ηλi∣<1|1-\eta\lambda_i|<1∣1−ηλi∣<1确保α(τ)→0\alpha^{(\tau)}\to0α(τ)→0 |
| 10 | B | 动量=累积历史梯度→加速平坦+平滑震荡 |
| 11 | A | Δw=−η∇E+μΔwprev\Delta w=-\eta\nabla E+\mu\Delta w_{prev}Δw=−η∇E+μΔwprev |
| 12 | B | 常数梯度→几何级数η∑μk=η/(1−μ)\eta\sum\mu^k=\eta/(1-\mu)η∑μk=η/(1−μ) |
| 13 | C | 交替符号→η∑(−μ)k=η/(1+μ)\eta\sum(-\mu)^k=\eta/(1+\mu)η∑(−μ)k=η/(1+μ) |
| 14 | B | 泰勒展开=函数值+一阶(梯度)+二阶(Hessian)信息 |
| 15 | B | Batch GD=每次使用全部N个样本计算梯度 |
| 16 | B | 验证误差先降后升=过拟合→选最低点 |
| 17 | A | ∇E\nabla E∇E与www同维度(D维向量) |
| 18 | B | 梯度在参数空间(定义域)中,不在函数曲面上 |
| 19 | C | Hessian=二阶偏导矩阵→D×DD\times DD×D |
| 20 | B | ∣1−ηλ∣<1 ⟹ −1<1−ηλ<1 ⟹ η<2/λ|1-\eta\lambda|<1\implies -1<1-\eta\lambda<1\implies\eta<2/\lambda∣1−ηλ∣<1⟹−1<1−ηλ<1⟹η<2/λ |
二、判断题答案
| 题号 | 答案 | 解析 |
|---|---|---|
| 21 | √ | 凸函数→任何局部最小值=全局最小值 |
| 22 | × | DL损失→非凸(多局部最小值+鞍点) |
| 23 | × | ∇=0\nabla=0∇=0可能是鞍点或最大值 |
| 24 | √ | 全部正→最小值;全部负→最大值;混合→鞍点 |
| 25 | × | 每次用一个样本是SGD;Batch GD用全部数据 |
| 26 | √ | 学习率的经典权衡 |
| 27 | × | 条件数越小→收敛越快;大=病态→慢 |
| 28 | √ | 动量=Δwprev\Delta w_{prev}Δwprev的指数移动平均 |
| 29 | √ | 平坦η1−μ\frac{\eta}{1-\mu}1−μη加速;震荡η1+μ\frac{\eta}{1+\mu}1+μη减速 |
| 30 | √ | 梯度在参数空间(domain),不在函数曲面上 |
| 31 | √ | Θ=RD\Theta=\mathbb{R}^DΘ=RD=无约束 |
| 32 | √ | 逻辑回归损失=凸→GD可收敛到全局最优 |
| 33 | √ | Batch GD每步计算N个梯度→O(ND)O(ND)O(ND) |
| 34 | √ | ∣1−ηλmax∣<1 ⟹ η<2/λmax|1-\eta\lambda_{max}|<1\implies\eta<2/\lambda_{max}∣1−ηλmax∣<1⟹η<2/λmax |
| 35 | × | 泰勒展开适用于任何二阶可微函数,不限于凸 |
三、简答题参考答案
36. 梯度下降算法流程
参考答案:
流程:
- 初始化 :w(0)w^{(0)}w(0)(小随机值)
- 迭代 :w(τ+1)=w(τ)−η∇E(w(τ))w^{(\tau+1)}=w^{(\tau)}-\eta\nabla E(w^{(\tau)})w(τ+1)=w(τ)−η∇E(w(τ))
- 停止 :权重变化<ϵ<\epsilon<ϵ或达到τmax\tau_{max}τmax
η\etaη的影响:
- η\etaη太小→步长小→收敛慢
- η\etaη太大→步长大→可能越过最小值→震荡/发散
- η\etaη适中→快速稳定收敛
- 需通过验证集选择或使用自适应方法
37. 动量机制
参考答案:
Δw(τ)=−η∇E+μΔw(τ−1)\Delta w^{(\tau)} = -\eta\nabla E + \mu\Delta w^{(\tau-1)}Δw(τ)=−η∇E+μΔw(τ−1)
平坦方向(∇E\nabla E∇E≈常数) :
Δw≈−η∇E(1+μ+μ2+⋯ )=−η1−μ∇E\Delta w \approx -\eta\nabla E(1+\mu+\mu^2+\cdots) = -\frac{\eta}{1-\mu}\nabla EΔw≈−η∇E(1+μ+μ2+⋯)=−1−μη∇E
→有效学习率η1−μ>η\frac{\eta}{1-\mu}>\eta1−μη>η(加速!)
震荡方向(∇E\nabla E∇E交替变号) :
Δw≈−η∇E(1−μ+μ2−⋯ )=−η1+μ∇E\Delta w \approx -\eta\nabla E(1-\mu+\mu^2-\cdots) = -\frac{\eta}{1+\mu}\nabla EΔw≈−η∇E(1−μ+μ2−⋯)=−1+μη∇E
→有效学习率η1+μ<η\frac{\eta}{1+\mu}<\eta1+μη<η(减速!)
38. Hessian与优化
参考答案:
特征值与驻点类型:
| 特征值 | 类型 |
|---|---|
| 全部>0 | 局部最小值 |
| 全部<0 | 局部最大值 |
| 混合 | 鞍点 |
条件数与收敛速度 :κ=λmax/λmin\kappa=\lambda_{max}/\lambda_{min}κ=λmax/λmin
- κ\kappaκ≈1→各方向曲率均匀→GD快速收敛
- κ≫1\kappa\gg1κ≫1→最慢维度收敛速率∣1−2/κ∣|1-2/\kappa|∣1−2/κ∣→慢(病态)
四、计算题参考答案
39. GD手算
(1) 梯度和Hessian
∇E(w)=2(w−3),H=2\nabla E(w) = 2(w-3), \quad H = 2∇E(w)=2(w−3),H=2
(2) GD迭代
w(0)=0w^{(0)}=0w(0)=0:
w(1)=0−0.5×2(0−3)=0−0.5×(−6)=0+3=3w^{(1)} = 0 - 0.5\times 2(0-3) = 0 - 0.5\times(-6) = 0+3 = \mathbf{3}w(1)=0−0.5×2(0−3)=0−0.5×(−6)=0+3=3
w(2)=3−0.5×2(3−3)=3−0=3w^{(2)} = 3 - 0.5\times 2(3-3) = 3 - 0 = \mathbf{3}w(2)=3−0.5×2(3−3)=3−0=3
(3) 最优解
∇E=0 ⟹ w∗=3\nabla E=0\implies w^*=3∇E=0⟹w∗=3。2步后w(2)=3=w∗w^{(2)}=3=w^*w(2)=3=w∗→恰好收敛! (因为η=0.5\eta=0.5η=0.5且H=2H=2H=2→1−ηλ=01-\eta\lambda=01−ηλ=0→一步收敛)
40. 条件数与动量
(1) 条件数
κ=λmaxλmin=1001=100\kappa = \frac{\lambda_{max}}{\lambda_{min}} = \frac{100}{1} = \mathbf{100}κ=λminλmax=1100=100
(2) 最大学习率
ηmax=2λmax=2100=0.02\eta_{max} = \frac{2}{\lambda_{max}} = \frac{2}{100} = \mathbf{0.02}ηmax=λmax2=1002=0.02
(3) 动量有效学习率 (平坦方向)
ηeff=η1−μ=0.021−0.9=0.020.1=0.2\eta_{eff} = \frac{\eta}{1-\mu} = \frac{0.02}{1-0.9} = \frac{0.02}{0.1} = \mathbf{0.2}ηeff=1−μη=1−0.90.02=0.10.02=0.2
有效学习率放大了10倍!完全补偿了平坦方向的缓慢。
41. 驻点类型判断
(1) 梯度
∇f=2w12w2,∇f(0,0)=00=0\nabla f = \begin{bmatrix} 2w_1 \\ 2w_2 \end{bmatrix}, \quad \nabla f(0,0) = \begin{bmatrix}0\\0\end{bmatrix}=\mathbf{0}∇f=2w12w2,∇f(0,0)=00=0
→ (0,0)(0,0)(0,0)是驻点。
(2) Hessian
H=2002H = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}H=2002
(3) 特征值
λ1=2,λ2=2\lambda_1=2, \lambda_2=2λ1=2,λ2=2,全部>0 → (0,0)(0,0)(0,0)是局部(也是全局)最小值。
答案编制完成时间:2026年6月28日