深度学习各种优化器详解

Aspect of twilight2025-12-05 20:23

指数加权平均：

为了避免序列太短导致初始的V偏离太大，对齐进行修正即可

梯度大小相差大时会发生震荡，导致优化难

解决方式：根据历史走的步数情况经过指数加权来决定下一步怎么走

根据历史走的步数情况经过指数加权来决定下一步怎么走

Adam就是Momentum+RMSProp+指数加权平均的修正

AdamW就是在Adam的基础上加上了一个权重衰减的项

在SGD中，L2正则化和Weight decay的效果是完全一样的

在Adam中，L2正则化和Weight decay的效果不一样

通过L2norm算出来的表达式更复杂

但是weight decay是直接在最后的权重更新表达式上加上一个权重衰减项