深度学习各种优化器详解

指数加权平均:

为了避免序列太短导致初始的V偏离太大,对齐进行修正即可

SGD 随机梯度下降

梯度大小相差大时会发生震荡,导致优化难

解决方式:根据历史走的步数情况经过指数加权来决定下一步怎么走

Momentum优化器

根据历史走的步数情况经过指数加权来决定下一步怎么走

RMSProp优化器

Adam优化器

Adam就是Momentum+RMSProp+指数加权平均的修正

AdamW优化器

AdamW就是在Adam的基础上加上了一个权重衰减的项

L2正则化和Weight decay的区别

在SGD中,L2正则化和Weight decay的效果是完全一样的

在Adam中,L2正则化和Weight decay的效果不一样

通过L2norm算出来的表达式更复杂

但是weight decay是直接在最后的权重更新表达式上加上一个权重衰减项

相关推荐
灵机一物几秒前
灵机一物AI原生电商小程序、PC端(已上线)-OpenAI 模型推翻离散几何核心猜想:AI 首次证明人类错了
人工智能
Tony Bai几秒前
AI 编码胜率榜:Go 与 Rust 完胜 C++
人工智能
数字时代全景窗1 分钟前
从OpenClaw、Palantir、SpaceX,看颠覆式创新的四个层次(5)传统财务模型的局限
大数据·人工智能·架构·软件工程
code_pgf1 分钟前
sVLM在资源受限环境中的应用案例
人工智能·深度学习·架构
灰灰勇闯IT2 分钟前
ops-math 的 ReduceSum:Tensor 归约为什么是计算热点
深度学习
多年小白2 分钟前
复盘】2026年5月21日(周四)
大数据·人工智能·ai·金融·区块链
南屹川2 分钟前
【并发编程】Python异步编程实战:从协程到异步框架
人工智能
BU摆烂会噶3 分钟前
【LangGraph】House_Agent 实战(四):预定流程 —— 中断与人工干预
android·人工智能·python·langchain
AI技术控4 分钟前
LangChain 是什么?从零开始学会 LangChain 的工程实践指南
人工智能·语言模型·自然语言处理·langchain·nlp
陈天伟教授5 分钟前
图解人工智能(32)深度学习前沿
人工智能·深度学习