深度学习常见优化器

一、基础优化器

随机梯度下降（SGD）
• 核心：∇θJ(θ) = η * ∇θJ(θ)
• 特点：学习率固定，收敛路径震荡大
• 适用场景：简单凸优化问题
• 改进方向：动量加速

二、动量系优化器

• 公式：v_t = γv_{t-1} + η ∇θJ(θ)

• 效果：平滑梯度更新，加速收敛

• 经典参数：γ=0.9（多数场景推荐）

三、自适应学习率家族

• 创新：∇θJ(θ)_t = ∇θJ(θ) / (sqrt(ρ) + sqrt(∑g²))

• 特性：自动调节学习率，适合稀疏数据

• 缺陷：学习率单调衰减易过早停止

四、进阶优化器

• 改进：解耦权重衰减与梯度更新

• 效果：提升模型泛化能力，尤其在Transformer架构中表现显著

五、选择建议矩阵

	训练数据	模型类型	目标	推荐优化器
小样本	图像分类	CNN	快速收敛	SGD+Momentum
大样本	NLP处理	Transformer	稳定训练	AdamW
超大规模	深度强化学习	多层网络	资源效率	LAMB
高精度调优	计算机视觉	ResNet	最终性能	SGD+Momentum

六、调试技巧

七、最新进展

2023年ICML论文提出的AdaBelief优化器，在ImageNet-21k数据集上达到与AdamW相当的分类精度，但参数量减少15%。其核心创新是通过可信区间估计动态调整学习率，值得关注。

需要具体场景的配置建议或某个优化器的数学推导细节，我可以进一步展开说明。建议根据具体任务在Colab上运行对比实验，使用TensorBoard观察不同优化器的loss下降曲线差异。

深度学习 常见优化器