深度学习基础—RMSprop算法与Adam 优化算法

1.RMSprop算法

1.1.算法流程

除了动量梯度下降法,RMSprop算法也可以加快梯度下降,这个算法的算法流程如下:深度学习基础---动量梯度下降法http://t.csdnimg.cn/zeGRo

1.2.算法原理

和动量梯度下降不同的是,对dW和db的变成了平方项,同时权重更新变为了(dW/sqrt(SdW))和(db/sqrt(Sdb)),这样做的原因如下:

如上图,损失函数是关于参数W和b的函数,因此简化为x轴表示W的优化方向,y轴表示b的优化方向。同动量梯度下降,我们希望减少y轴方向的摆动,加快x轴方向的优化,因此有SdW和Sdb。观察微分的方向,可以发现:摆动幅度过大,因此损失函数的斜率在b方向上的分量更多,也就是db更大,相反dW更小。于是SdW更小,Sdb更大。为了让W的变化幅度更大(加速x轴),b的变化幅度更小(减小y轴摆动),因此为W更新公式的dW除以一个较小的数,即sqrt(SdW),b更新公式的db除以更大的数,即sqrt(Sdb),达到削减大梯度的方向的梯度,增加小梯度方向的梯度,从而减小摆动,进而可以选择较大的学习率,加快模型的收敛。

注意:为了防止分母为0的风险,可以给分母+ℇ,即sqrt(SdW)+ℇ,ℇ通常取10^(-8),同理sqrt(Sdb)也是。

2.Adam 优化算法

Adam 优化算法是RMSprop算法和动量梯度下降法的结合版,该算法性能优秀,已被证明能适用多种不同结构的神经网络。该算法的算法流程如下:

本算法有很多超参数:学习率a,动量梯度下降法参数b1,RMSprop算法参数b2,ℇ。对于这些参数,默认b1=0.9,b2=0.999,ℇ=10^(-8)。一般不需要变动,但是学习率需要多次调试找到合适值。

相关推荐
Black蜡笔小新7 分钟前
自动化AI算法训练服务器DLTM训推一体工作站赋能多行业智能化升级
人工智能·算法·自动化
KaMeidebaby8 分钟前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
NineData13 分钟前
SQL 都在等锁时,ChatDBA 先帮 MySQL 找到谁在挡路
数据库·人工智能·sql·mysql·安全·数据复制·数据迁移工具
意图共鸣16 分钟前
意图共鸣科技《AI记忆链商业化白皮书3.0》技术解读:“AI焦虑的解药”——从通用AI到个人记忆链架构
人工智能·科技·架构
小e说说22 分钟前
AI 时代,IT 职业教育如何为学习者赋能?——职坐标的 AI+教育实践
人工智能
后端小肥肠24 分钟前
不会做视频的我,用 Codex 跑通口播 + 自动剪辑,获客 20+
人工智能·aigc·agent
某林21230 分钟前
跨越底层与AI的鸿沟:ROS2+多模态大模型(Qwen-VL)机器人全链路排障实录
人工智能·stm32·机器人·人机交互·ros2·技术复盘
没事别瞎琢磨34 分钟前
二、类型系统——给所有概念起名字
人工智能·node.js
卡梅德生物科技小能手39 分钟前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习
战族狼魂41 分钟前
基于 CNN 的ConvS2S(Convolutional Sequence-to-Sequence)架构英德机器翻译模型
人工智能·cnn·机器翻译