优化算法（SGD，RMSProp，Ada）

优化算法就是专门研究如何优化模型的。

损失函数是模型参数的函数。因此可以求出损失函数对于模型参数的梯度。可以沿着梯度方向进行参数更新。

该算法主要是为了解决SGD的抖动问题的。

具体实现：

其实就是在计算本次梯度时，会考虑过去的梯度值。例如将 ρ \rho ρ设置为0.9，那么此刻的梯度有 90 % 90\% 90%的部分来自历史值，剩余 10 % 10\% 10%来自于当前的计算值。这样更新方向就不会乱抖动了。

主要作用：==沿着"陡峭"方向的优化变慢；沿着"平缓"方向的优化加快。==稳定优化速度（更新步长）

SGD我们不是要设定学习率参数麻，而RMS可以在训练过程中动态调整参数。

RMSprop的更新规则如下：

初始化参数 θ \theta θ，设置学习率 η \eta η，衰减系数 ρ \rho ρ（通常设为0.9），以及数值稳定性的小常数 ϵ \epsilon ϵ（通常设为 1e-8 ）；
在每次迭代中，计算参数 θ \theta θ 的梯度 g g g ；
更新累积平方梯度的指数加权移动平均 r r r ： r = ρ r + ( 1 − ρ ) g 2 r = \rho r+(1-\rho)g^2 r=ρr+(1−ρ)g2
计算参数更新量： Δ θ = η r + ϵ ⋅ g \Delta\theta = \frac{\eta}{\sqrt{r + \epsilon}} \cdot g Δθ=r+ϵ η⋅g
更新参数 θ \theta θ： θ = θ − Δ θ \theta = \theta - \Delta\theta θ=θ−Δθ

与RMS类似的算法，只不过在处理累计梯度的方法上不同

初始化参数 θ \theta θ，设置学习率 η \eta η，以及数值稳定性的小常数 ϵ \epsilon ϵ（通常设为 1e-8 ）；
在每次迭代中，计算参数 θ \theta θ 的梯度 g g g ；
更新累积平方梯度的指数加权移动平均 r r r，初始为0 ： r = r + g 2 r = r+g^2 r=r+g2
计算参数更新量： Δ θ = η r + ϵ ⋅ g \Delta\theta = \frac{\eta}{\sqrt{r + \epsilon}} \cdot g Δθ=r+ϵ η⋅g
更新参数 θ \theta θ： θ = θ − Δ θ \theta = \theta - \Delta\theta θ=θ−Δθ

AdaGrad: 累积所有过去的梯度平方（无遗忘因子）。这意味着它会不断地累积梯度信息，导致学习率随着时间逐渐减小，可能在后期变得过小，以至于无法继续有效更新；

RMSprop: 使用指数加权平均来累积过去的梯度平方（有遗忘因子）。这种方式使得算法对最近的梯度给予更多的权重，而对旧的梯度逐渐"遗忘"，从而避免了学习率过快减小的问题。

除了通过优化算法来更新学习率之外，我们也可以手动更新学习率