深度学习各种优化器详解

指数加权平均:

为了避免序列太短导致初始的V偏离太大,对齐进行修正即可

SGD 随机梯度下降

梯度大小相差大时会发生震荡,导致优化难

解决方式:根据历史走的步数情况经过指数加权来决定下一步怎么走

Momentum优化器

根据历史走的步数情况经过指数加权来决定下一步怎么走

RMSProp优化器

Adam优化器

Adam就是Momentum+RMSProp+指数加权平均的修正

AdamW优化器

AdamW就是在Adam的基础上加上了一个权重衰减的项

L2正则化和Weight decay的区别

在SGD中,L2正则化和Weight decay的效果是完全一样的

在Adam中,L2正则化和Weight decay的效果不一样

通过L2norm算出来的表达式更复杂

但是weight decay是直接在最后的权重更新表达式上加上一个权重衰减项

相关推荐
墨染天姬3 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志3 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114243 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠3 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光4 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好4 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力4 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo4 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_4 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL4 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理