标题:【深度学习优化】梯度下降:从原理到批量/随机/小批量梯度下降
摘要:
梯度下降是深度学习最基础的优化算法:沿着负梯度方向迭代更新参数,使损失函数逐步降低。本文通俗讲解原理、公式与三种常见变体。
一、核心思想
把损失 L(θ)L(\theta)L(θ) 看作高山,梯度是上升最快方向,负梯度是下山最快方向。反复沿负梯度走一步,直到走到谷底(损失最小)。
二、基本公式
θ=θ−η⋅∇L(θ) \theta = \theta - \eta \cdot \nabla L(\theta) θ=θ−η⋅∇L(θ)
- θ\thetaθ:模型参数(权重/偏置)
- η\etaη:学习率(步长)
- ∇L(θ)\nabla L(\theta)∇L(θ):损失对参数的梯度
三、三种常见梯度下降
- 批量梯度下降 BGD:全样本算一次梯度,稳定但慢,内存开销大。
- 随机梯度下降 SGD:每次只用1个样本算梯度,快、有噪声,易跳出局部最优。
- 小批量梯度下降 Mini-batch SGD :每次用一小批(如 32/64/128)样本,速度+稳定性平衡,工业界默认。
四、学习率的影响
- 太大:参数震荡不收敛
- 太小:学习极慢、易困在局部最优
- 常用策略:衰减学习率、自适应优化器(Adam、RMSprop)
小结:
梯度下降本质是迭代式沿负梯度最小化损失。BGD、SGD、Mini-batch 各有优劣,Mini-batch 是现在深度学习主流。