【机器学习300问】81、什么是动量梯度下降算法？

动量梯度下降算法（Momentum）是利用指数加权移动平均的思想来实现梯度下降的算法。让我们先来回顾一下基础的梯度下降方法以及看看它有哪些不足之处。接着引出动量梯度下降算法，在理解了它的原理后看看它是如何规避之前方法的不足的。

如果不知道指数加权平均是什么？可以看看我上一篇文章：

【机器学习300问】80、指数加权平均数是什么？http://t.csdnimg.cn/4tFBg

一、通过举例来感性认识

（1）基础梯度下降法：缓慢探索的徒步者

想象你是一位徒步者，站在一座多山的地形上，你的目标是到达最低点------山谷底部。你只能看到你周围有限的视野，看不到整个地形的全貌。为了决定往哪个方向走，你每走一步都会探测脚下的斜率，即地面倾斜的方向，然后沿着这个方向向下走一小步。这就是基础梯度下降法的工作原理，它按照当前位置的梯度（即损失函数下降最快的方向）逐步调整参数，以期达到最小损失值。

问题：如果地形中有许多小山包和凹陷（局部极小值），基础梯度下降可能会在这些局部低点附近徘徊，很难跳出并找到全局最低点。此外，在山谷较为平坦的区域，由于梯度变小，前进速度会大大减慢，可能导致收敛速度很慢。

（2）动量梯度下降法：带上滑板的探险者

现在，我们将徒步者换成了一个携带滑板的探险者，还是同样站在山顶，目标相同------到达山谷底部。除了根据当前的斜率决定滑行方向外，他还拥有一个特别的滑板，这个滑板能够累积之前的滑行速度。

当探险者开始下滑时，他的滑板不仅受到当前斜坡直接影响，还保留了前一次滑行的动量。这意味着，如果他在连续的斜坡上滑行，即使某个斜坡不如之前的陡峭，他也不会立刻慢下来，而是会凭借着积累起来的速度继续快速前进。相反，如果遇到反向的斜坡（相当于梯度方向的突然改变），滑板的动量也会帮助他更加平滑地调整方向，而不是立刻停下来或倒退。