梯度下降的基本原理

序言:最近再整理之前的一些笔记,感觉梯度下降之前整理的很详细也很杂乱,删了也不是,留着看着也烦,就发到这里来当个备用吧。

随机梯度下降(SGD)

求极小值:①有条件的极小值(有条件的用拉格朗日),②无条件的极小值(无条件的用梯度下降)。

梯度是什么:

梯度有什么用:

怎么走:

梯度下降的迭代举例:

关键算法:

Momentum算法

NAG算法

Adagrad算法

RMSprop算法

解决了Adagrad算法中学习率衰减过快的问题。

改进点:1.时间窗口机制

2.均值代替平方和

3.历史梯度均值和当前梯度加权平均

AdaDelta算法

Adam算法

Adam吸收了Adagrad(自适应学习率的梯度下降算法)和动量梯度下降算法的优点既能适应稀疏梯度(即自然语言和计算机视觉问题),又能缓解梯度震荡的问题.

相关推荐
Nautiluss6 分钟前
一起玩XVF3800麦克风阵列(八)
大数据·人工智能·嵌入式硬件·github·音频·语音识别
qq_430855887 分钟前
线代第二章矩阵第四课:方阵的幂
算法·机器学习·矩阵
yzx9910137 分钟前
人工智能大模型新浪潮:五大突破性工具深度解析
人工智能
roman_日积跬步-终至千里11 分钟前
【计算机设计与算法-习题2】动态规划应用:矩阵乘法与钢条切割问题
算法·矩阵·动态规划
极市平台11 分钟前
骁龙大赛-技术分享第5期(上)
人工智能·经验分享·笔记·后端·个人开发
kupeThinkPoem12 分钟前
计算机算法导论第三版算法视频讲解
数据结构·算法
sali-tec13 分钟前
C# 基于halcon的视觉工作流-章67 深度学习-分类
开发语言·图像处理·人工智能·深度学习·算法·计算机视觉·分类
少许极端16 分钟前
算法奇妙屋(十八)-子数组系列(动态规划)
算法·动态规划·子数组
WBluuue16 分钟前
Codeforces 1068 Div2(ABCD)
c++·算法
全栈陈序员30 分钟前
【Python】基础语法入门(十七)——文件操作与数据持久化:安全读写本地数据
开发语言·人工智能·python·学习