梯度下降的优化算法中，动量算法和指数加权平均的区别对比

两者都使用一个带有"遗忘因子"的更新公式，也就是：

复制代码

 new_value = β * old_value + (1 - β) * something_new

β 在 0 到 1 之间，是"记忆长度"。

β 越大，记忆越长，越平滑。

这个形式其实就是指数加权平均的通用形式，也就是 EMA 的本质。

这也是为什么很多人说"动量本质上就是在梯度上做指数加权"。这句话并没错，但它没有说明它们功能级别的差别。

可以用一句非常精炼的话区分它们：

动量是给参数更新添加物理意义上的"惯性"；
EMA 是用指数衰减方式做"平滑"，用于统计意义上的噪声抑制。

这就像一个是冲刺时前倾身体的惯性，一个是把噪声滤掉的平滑器。

动量算法把梯度当成"力"，把你正在优化的 θ 想象成物体。

公式（标准 SGD + Momentum）：

复制代码

v_t = β * v_{t-1} + (1 - β) * ∇L(θ_t)
θ_t = θ_t - α * v_t

你可以把 v_t 理解为"速度"，它累积了之前的下降方向，使下降更稳定：

动量关心的是"方向与速度"。

EMA 通常用于统计、监控、推理阶段，而不是用于改变下降方向。

最常见的场景：

公式结构类似：

复制代码

S_t = β * S_{t-1} + (1 - β) * x_t

但它不会直接改变参数更新方向，而是作为"估计器"或"平滑器"。

EMA 关心的是"信号质量"。

假设你在训练一个模型，梯度噪声很大：

你会得到一个"偏向于主方向的速度"，允许你越滑越快。

像在颠簸的山坡上跑步------你会忽略小碎石，顺着大方向冲。

你会得到一个"更平滑的梯度估计"，但它本身不推动你往哪里走。

像把震荡的温度计读数变成一个好看的曲线。

Adam = 动量（梯度的一阶 EMA）+ 二阶梯度的 EMA + 自适应学习率。

换句话说：

同一种结构，根据用途不同，扮演完全不同的角色。

两者长得像是双胞胎，但性格完全不同：

理解这一点后，优化算法的族谱会变得清晰很多，比如为什么 SGD、Momentum、RMSProp、Adam 是一条清晰的演化链。

如果继续探索，会看到这些算法背后其实都有一种朴素又优雅的数学美感：用一点点记忆去驯服随机性。