深度学习概念_随机梯度下降与 ADAM 的区别与联系公式化表达

随机梯度下降（SGD）与 Adam 优化器的区别与联系（公式化 + 简洁版）

你希望清晰了解两者的核心差异、关联及公式表达，下面将从核心定义、公式、联系、区别四个维度展开，确保简洁明了。

随机梯度下降（SGD）：每次迭代仅使用 ** 单个样本（或小批量样本）** 计算梯度，更新模型参数，是批量梯度下降（BGD）的简化版，兼顾训练效率与收敛效果。
Adam（Adaptive Moment Estimation） ：自适应学习率优化器，融合了动量（Momentum）和RMSprop的优点，能自适应调整每个参数的学习率，是当前深度学习中最常用的优化器之一。

Adam 引入一阶动量（梯度均值）和二阶动量（梯度方差），实现自适应学习率，核心公式如下：

设：

核心目标一致 ：均为最小化损失函数，通过梯度下降更新模型参数。
Adam 包含 SGD 动量的思想 ：Adam 的一阶动量与 SGD+Momentum 的本质相同，都是对历史梯度的加权累积，用于缓解梯度震荡、加速收敛。
均支持小批量训练：两者都可基于小批量样本（Mini-Batch）计算梯度，平衡训练效率与梯度估计的准确性。