深度学习基础—RMSprop算法与Adam 优化算法

1.RMSprop算法

1.1.算法流程

除了动量梯度下降法,RMSprop算法也可以加快梯度下降,这个算法的算法流程如下:深度学习基础---动量梯度下降法http://t.csdnimg.cn/zeGRo

1.2.算法原理

和动量梯度下降不同的是,对dW和db的变成了平方项,同时权重更新变为了(dW/sqrt(SdW))和(db/sqrt(Sdb)),这样做的原因如下:

如上图,损失函数是关于参数W和b的函数,因此简化为x轴表示W的优化方向,y轴表示b的优化方向。同动量梯度下降,我们希望减少y轴方向的摆动,加快x轴方向的优化,因此有SdW和Sdb。观察微分的方向,可以发现:摆动幅度过大,因此损失函数的斜率在b方向上的分量更多,也就是db更大,相反dW更小。于是SdW更小,Sdb更大。为了让W的变化幅度更大(加速x轴),b的变化幅度更小(减小y轴摆动),因此为W更新公式的dW除以一个较小的数,即sqrt(SdW),b更新公式的db除以更大的数,即sqrt(Sdb),达到削减大梯度的方向的梯度,增加小梯度方向的梯度,从而减小摆动,进而可以选择较大的学习率,加快模型的收敛。

注意:为了防止分母为0的风险,可以给分母+ℇ,即sqrt(SdW)+ℇ,ℇ通常取10^(-8),同理sqrt(Sdb)也是。

2.Adam 优化算法

Adam 优化算法是RMSprop算法和动量梯度下降法的结合版,该算法性能优秀,已被证明能适用多种不同结构的神经网络。该算法的算法流程如下:

本算法有很多超参数:学习率a,动量梯度下降法参数b1,RMSprop算法参数b2,ℇ。对于这些参数,默认b1=0.9,b2=0.999,ℇ=10^(-8)。一般不需要变动,但是学习率需要多次调试找到合适值。

相关推荐
云烟成雨TD4 小时前
Spring AI Alibaba 1.x 系列【69】Token 用量统计
java·人工智能·spring
十三画者4 小时前
【AI学习笔记】:DeepSeek 大模型本地部署与调用实战指南
人工智能
丁常彦-自媒体-常言道4 小时前
从首发4nm智驾芯片到兜底城市领航安全,比亚迪开启AI新征程
人工智能
小杨在厦门5 小时前
从AI验布到智能质检:纺织企业智能化升级的三个台阶
人工智能·服装·服装厂·服装机械·铺布机
达之云*驭影5 小时前
解锁流量密码:详解抖音AI智能推荐封面功能
人工智能
火山引擎开发者社区6 小时前
ArkClaw 投研助理 —— 零门槛做投研,从一句话开始产出你的第一份深度研报
人工智能
码农小白AI6 小时前
AI报告审核加速融入自动化实验室:IACheck破解智能设备时代报告管理新挑战
运维·人工智能·自动化
xingyuzhisuan6 小时前
自建聚合网关VS第三方聚合平台,适配场景与数据实测
人工智能·ai·云计算·oneapi
tedcloud1236 小时前
DeepSeek-TUI部署教程:打造CLI AI助手环境
服务器·人工智能·word·excel·dreamweaver