深度学习各种优化器详解

指数加权平均:

为了避免序列太短导致初始的V偏离太大,对齐进行修正即可

SGD 随机梯度下降

梯度大小相差大时会发生震荡,导致优化难

解决方式:根据历史走的步数情况经过指数加权来决定下一步怎么走

Momentum优化器

根据历史走的步数情况经过指数加权来决定下一步怎么走

RMSProp优化器

Adam优化器

Adam就是Momentum+RMSProp+指数加权平均的修正

AdamW优化器

AdamW就是在Adam的基础上加上了一个权重衰减的项

L2正则化和Weight decay的区别

在SGD中,L2正则化和Weight decay的效果是完全一样的

在Adam中,L2正则化和Weight decay的效果不一样

通过L2norm算出来的表达式更复杂

但是weight decay是直接在最后的权重更新表达式上加上一个权重衰减项

相关推荐
大龄程序员狗哥6 小时前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer6 小时前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能7 小时前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0957 小时前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
墨染天姬7 小时前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好7 小时前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI7 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈7 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程
易连EDI—EasyLink7 小时前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
冬奇Lab7 小时前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm