一文搞懂经典的优化算法都有哪些？

推荐直接网站在线阅读：aicoting.cn

在神经网络的训练过程中，优化算法（Optimizer） 是决定参数如何更新的关键工具。它就像是模型学习过程中的导航仪，告诉我们在损失函数的山谷里该往哪个方向走、走多远。不同的优化算法对应着不同的更新策略，直接影响模型的收敛速度和最终效果。

1. 梯度下降的基本思想

训练神经网络的核心目标是最小化损失函数 L(θ)，其中 θ 表示模型参数。最常见的更新公式是：

$θ ← θ − η ⋅ ∇ θ L ( θ ) \theta \leftarrow \theta - \eta \cdot \nabla_\theta L(\theta)$ θ←θ−η⋅∇θL(θ)

θ：模型参数（权重、偏置）
η：学习率（Learning Rate）
$∇ θ L ( θ ) \nabla_\theta L(\theta)$ ∇θL(θ)：损失函数关于参数的梯度

也就是每次迭代都沿着梯度下降的方向走一小步，逐渐逼近最优解。

2. 常见优化算法

2.1 SGD（随机梯度下降, Stochastic Gradient Descent）

$θ ← θ − η ⋅ ∇ θ L ( θ ; x i , y i ) \theta \leftarrow \theta - \eta \cdot \nabla_\theta L(\theta; x_i, y_i)$ θ←θ−η⋅∇θL(θ;xi,yi)

特点：每次只用一个样本（或小批量样本）的梯度更新。
优点：计算效率高，能跳出局部最优。
缺点：收敛不稳定，容易震荡。

SGD 是所有优化算法的鼻祖，至今依然被广泛应用，尤其在大规模训练里常搭配 动量（Momentum） 使用，加速收敛并减少震荡。

2.2 Adam（Adaptive Moment Estimation）

Adam 可以看作是 Momentum + RMSProp 的结合体，它同时考虑了梯度的一阶动量（均值）和二阶动量（方差），实现了对学习率的自适应调整。

更新公式核心如下：

$m t = β 1 m t − 1 + ( 1 − β 1 ) g t m_t = \beta_1 m_{t-1} + (1 - \beta_1)g_t$ mt=β1mt−1+(1−β1)gt

$v t = β 2 v t − 1 + ( 1 − β 2 ) g t 2 v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$ vt=β2vt−1+(1−β2)gt2

$m ^ t = m t 1 − β 1 t , v ^ t = v t 1 − β 2 t \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}$ m^t=1−β1tmt,v^t=1−β2tvt

$θ ← θ − η ⋅ m ^ t v ^ t + ϵ \theta \leftarrow\theta - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$ θ←θ−η⋅v^t +ϵm^t

其中：

$g t g_t$ gt：当前梯度
$m t m_t$ mt：梯度一阶动量，类似"滑动平均"
$v t v_t$ vt：梯度二阶动量，反映梯度波动大小
$m ^ t , v ^ t \hat{m}_t, \hat{v}_t$ m^t,v^t：经过偏差校正后的估计值
$β 1 , β 2 \beta_1, \beta_2$ β1,β2：衰减系数，常用值分别是 0.9 和 0.999
$ϵ \epsilon$ ϵ：防止除零的小常数
$η \eta$ η：学习率

Adam 会让每个参数都拥有一个自适应的学习率，通常比纯 SGD 收敛更快、更稳。缺点是有时会导致泛化性能不如 SGD，容易学得太快，最后停在次优解。

2.3 AdamW（Adam with Weight Decay）

AdamW 是对 Adam 的重要改进，区别主要体现在 正则化 方式。

在 Adam 里，如果你加 L2 正则化，它并不是严格意义上的"权重衰减"，而是把正则项混进了梯度更新里，导致效果不稳定。
在 AdamW 里，权重衰减（Weight Decay）被独立出来，更新方式如下：

$θ ← θ − η ⋅ ( m ^ t v ^ t + ϵ + λ θ ) \theta \leftarrow \theta - \eta \cdot \left( \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda \theta \right)$ θ←θ−η⋅(v^t +ϵm^t+λθ)

其中：