深度学习各种优化器详解

指数加权平均:

为了避免序列太短导致初始的V偏离太大,对齐进行修正即可

SGD 随机梯度下降

梯度大小相差大时会发生震荡,导致优化难

解决方式:根据历史走的步数情况经过指数加权来决定下一步怎么走

Momentum优化器

根据历史走的步数情况经过指数加权来决定下一步怎么走

RMSProp优化器

Adam优化器

Adam就是Momentum+RMSProp+指数加权平均的修正

AdamW优化器

AdamW就是在Adam的基础上加上了一个权重衰减的项

L2正则化和Weight decay的区别

在SGD中,L2正则化和Weight decay的效果是完全一样的

在Adam中,L2正则化和Weight decay的效果不一样

通过L2norm算出来的表达式更复杂

但是weight decay是直接在最后的权重更新表达式上加上一个权重衰减项

相关推荐
雪花desu20 小时前
大模型应用评估—— 从 BLEU 到 Agent 综合评价
人工智能·深度学习·神经网络·语言模型
CS创新实验室20 小时前
课程提纲:计算机视觉——从原理解析到产业落地
人工智能·计算机视觉·cv
EchoL、21 小时前
【论文阅读】SteganoGAN:High Capacity Image Steganography with GANs
论文阅读·人工智能·笔记·算法
元智启21 小时前
企业AI智能体:技术突破与生态融合重构产业新格局——从单点突破到系统重构的产业跃迁
人工智能·重构
CoovallyAIHub21 小时前
深度学习驱动的视频异常检测(VAD),AI如何让监控更智能?
深度学习·算法·计算机视觉
前端程序猿之路21 小时前
AI大模型应用之-RAG 全流程
人工智能·python·gpt·语言模型·aigc·mybatis·ai编程
线束线缆组件品替网21 小时前
Cole Hersee重载环境下汽车线束布线与固定方案全解析
人工智能·汽车·电脑·硬件工程·材料工程
数据皮皮侠AI21 小时前
数字经济政策工具变量数据(2008-2023)
大数据·数据库·人工智能·笔记·1024程序员节
赫尔·普莱蒂科萨·帕塔21 小时前
从 “脑梗“ 到 “功夫高手“
数据库·人工智能·agi
雨大王51221 小时前
AI+工业元宇宙:如何彻底改变传统汽车制造业的运作模式?
人工智能