优化算法(SGD,RMSProp,Ada)

概述

优化算法就是专门研究如何优化模型的。

常用优化算法

随机梯度下降(SGD)

损失函数是模型参数的函数。因此可以求出损失函数对于模型参数的梯度。可以沿着梯度方向进行参数更新。

SGD存在的问题

SGD + Momentum

该算法主要是为了解决SGD的抖动问题的。

具体实现:

其实就是在计算本次梯度时,会考虑过去的梯度值。例如将 ρ \rho ρ设置为0.9,那么此刻的梯度有 90 % 90\% 90%的部分来自历史值,剩余 10 % 10\% 10%来自于当前的计算值。这样更新方向就不会乱抖动了。

RMSProp

主要作用:==沿着"陡峭"方向的优化变慢;沿着"平缓"方向的优化加快。==稳定优化速度(更新步长)

SGD我们不是要设定学习率参数麻,而RMS可以在训练过程中动态调整参数。

RMSprop的更新规则如下:

  1. 初始化参数 θ \theta θ,设置学习率 η \eta η,衰减系数 ρ \rho ρ(通常设为0.9),以及数值稳定性的小常数 ϵ \epsilon ϵ(通常设为 1e-8 );
  2. 在每次迭代中,计算参数 θ \theta θ 的梯度 g g g ;
  3. 更新累积平方梯度的指数加权移动平均 r r r : r = ρ r + ( 1 − ρ ) g 2 r = \rho r+(1-\rho)g^2 r=ρr+(1−ρ)g2
  4. 计算参数更新量: Δ θ = η r + ϵ ⋅ g \Delta\theta = \frac{\eta}{\sqrt{r + \epsilon}} \cdot g Δθ=r+ϵ η⋅g
  5. 更新参数 θ \theta θ: θ = θ − Δ θ \theta = \theta - \Delta\theta θ=θ−Δθ

AdaGrad算法

与RMS类似的算法,只不过在处理累计梯度的方法上不同

  1. 初始化参数 θ \theta θ,设置学习率 η \eta η,以及数值稳定性的小常数 ϵ \epsilon ϵ(通常设为 1e-8 );
  2. 在每次迭代中,计算参数 θ \theta θ 的梯度 g g g ;
  3. 更新累积平方梯度的指数加权移动平均 r r r,初始为0 : r = r + g 2 r = r+g^2 r=r+g2
  4. 计算参数更新量: Δ θ = η r + ϵ ⋅ g \Delta\theta = \frac{\eta}{\sqrt{r + \epsilon}} \cdot g Δθ=r+ϵ η⋅g
  5. 更新参数 θ \theta θ: θ = θ − Δ θ \theta = \theta - \Delta\theta θ=θ−Δθ

AdaGrad VS RMSProp

AdaGrad: 累积所有过去的梯度平方(无遗忘因子)。这意味着它会不断地累积梯度信息,导致学习率随着时间逐渐减小,可能在后期变得过小,以至于无法继续有效更新;

RMSprop: 使用指数加权平均来累积过去的梯度平方(有遗忘因子)。这种方式使得算法对最近的梯度给予更多的权重,而对旧的梯度逐渐"遗忘",从而避免了学习率过快减小的问题。

学习率的更新

除了通过优化算法来更新学习率之外,我们也可以手动更新学习率

相关推荐
长不大的蜡笔小新1 分钟前
从0到1学AlexNet:用经典网络搞定花分类任务
图像处理·深度学习·机器学习
蜂蜜黄油呀土豆6 分钟前
深入理解 Agent 相关协议:从单体 Agent 到 Multi-Agent、MCP、A2A 与 Agentic AI 的系统化实践
人工智能·ai agent·大模型应用·agentic ai
WWZZ202514 分钟前
快速上手大模型:深度学习5(实践:过、欠拟合)
人工智能·深度学习·神经网络·算法·机器人·大模型·具身智能
却道天凉_好个秋27 分钟前
OpenCV(二十七):中值滤波
人工智能·opencv·计算机视觉
_codemonster28 分钟前
深度学习实战(基于pytroch)系列(三十三)循环神经网络RNN
人工智能·rnn·深度学习
AutumnorLiuu34 分钟前
【红外小目标检测实战】Yolov11加入SPDConv,HDC,ART等模块
人工智能·yolo·目标检测
Evand J35 分钟前
【TCN与LSTM例程】TCN(时间卷积网络)与LSTM(长短期记忆)训练单输入单输出,用于拟合一段信号,便于降噪。MATLAB
网络·人工智能·matlab·lstm
胖好白36 分钟前
【RK3588开发】模型部署全流程
linux·人工智能
司铭鸿38 分钟前
图论中的协同寻径:如何找到最小带权子图实现双源共达?
linux·前端·数据结构·数据库·算法·图论
sensen_kiss1 小时前
INT305 Machine Learning 机器学习 Pt.9 Probabilistic Models(概率模型)
人工智能·机器学习·概率论