深度学习常用优化器总结,具详细(SGD,Momentum,AdaGrad,Rmsprop,Adam,Adamw)学习需要,总结一些常用优化器。优化器的本质是使用不同的策略进行参数更新。常用的方法就是梯度下降,那梯度下降是指在给定待优化的模型参数 θ ∈ R d \theta \in R^d θ∈Rd,和目标函数 J ( θ ) J(\theta) J(θ),算法通过沿梯度 ∇ J ( θ ) \nabla J(\theta) ∇J(θ)的反方向更新权重 θ \theta θ,来最小化目标函数。 学习率 μ \mu μ决定了每一时刻的更新步长。对于每一个时刻 t ,我们可以用下述公式描述梯度下降的流程: θ t +