深度学习各种优化器详解

指数加权平均:

为了避免序列太短导致初始的V偏离太大,对齐进行修正即可

SGD 随机梯度下降

梯度大小相差大时会发生震荡,导致优化难

解决方式:根据历史走的步数情况经过指数加权来决定下一步怎么走

Momentum优化器

根据历史走的步数情况经过指数加权来决定下一步怎么走

RMSProp优化器

Adam优化器

Adam就是Momentum+RMSProp+指数加权平均的修正

AdamW优化器

AdamW就是在Adam的基础上加上了一个权重衰减的项

L2正则化和Weight decay的区别

在SGD中,L2正则化和Weight decay的效果是完全一样的

在Adam中,L2正则化和Weight decay的效果不一样

通过L2norm算出来的表达式更复杂

但是weight decay是直接在最后的权重更新表达式上加上一个权重衰减项

相关推荐
早起CaiCai2 分钟前
【Pytorch 实践1】手写数字
人工智能·pytorch·python
星浩AI2 分钟前
(七)GPT2中文生成模型定制化微调训练[附源码]
pytorch·深度学习·llm
monsion12 分钟前
Loop Engineering:你不再 prompt agent,而是设计 prompt agent 的系统
大数据·人工智能·prompt
卡梅德生物科技小能手16 分钟前
卡梅德生物科普MCAM(黑色素瘤细胞黏附分子)
人工智能·经验分享·深度学习
老兵发新帖19 分钟前
next drawio界面卡死问题分析
人工智能·draw.io
一楼的猫27 分钟前
茄子写作助手——品牌搜索突破9万后的技术型品牌认知与官网入口指南
人工智能·学习·机器学习·chatgpt·ai写作
ZeroNews内网穿透29 分钟前
NAS部署Hermes AI Agent + 零讯内网穿透,实现远程可管理的AI助手
人工智能·安全·ai·内网穿透
隔窗听雨眠41 分钟前
原生一体化多模态大模型技术研究:从拼接到统一的架构革命
人工智能·架构
月疯1 小时前
torch:expand和repeate的区别
开发语言·python·深度学习
羊羊小栈1 小时前
Uplift营销供应链协同决策系统(基于Uplift因果推断与运筹优化算法)
前端·人工智能·算法·毕业设计·大作业