梯度下降的基本原理

序言:最近再整理之前的一些笔记,感觉梯度下降之前整理的很详细也很杂乱,删了也不是,留着看着也烦,就发到这里来当个备用吧。

随机梯度下降(SGD)

求极小值:①有条件的极小值(有条件的用拉格朗日),②无条件的极小值(无条件的用梯度下降)。

梯度是什么:

梯度有什么用:

怎么走:

梯度下降的迭代举例:

关键算法:

Momentum算法

NAG算法

Adagrad算法

RMSprop算法

解决了Adagrad算法中学习率衰减过快的问题。

改进点:1.时间窗口机制

2.均值代替平方和

3.历史梯度均值和当前梯度加权平均

AdaDelta算法

Adam算法

Adam吸收了Adagrad(自适应学习率的梯度下降算法)和动量梯度下降算法的优点既能适应稀疏梯度(即自然语言和计算机视觉问题),又能缓解梯度震荡的问题.

相关推荐
AndyHeee6 分钟前
【windows使用TensorFlow,GPU无法识别问题汇总,含TensorFlow完整安装过程】
人工智能·windows·tensorflow
2401_8384725112 分钟前
C++中的访问者模式
开发语言·c++·算法
老鼠只爱大米18 分钟前
LeetCode经典算法面试题 #108:将有序数组转换为二叉搜索树(递归分治、迭代法等多种实现方案详解)
算法·leetcode·二叉树·二叉搜索树·平衡树·分治法
jay神21 分钟前
基于YOLOv8的木材表面缺陷检测系统
人工智能·深度学习·yolo·计算机视觉·毕业设计
交通上的硅基思维27 分钟前
人工智能安全:风险、机制与治理框架研究
人工智能·安全·百度
老百姓懂点AI30 分钟前
[测试工程] 告别“玄学”评测:智能体来了(西南总部)基于AI agent指挥官的自动化Eval框架与AI调度官的回归测试
运维·人工智能·自动化
2501_9481201534 分钟前
基于量化感知训练的大语言模型压缩方法
人工智能·语言模型·自然语言处理
songyuc37 分钟前
【Llava】load_pretrained_model() 说明
人工智能·深度学习
MARS_AI_38 分钟前
大模型赋能客户沟通,云蝠大模型呼叫实现问题解决全链路闭环
人工智能·自然语言处理·信息与通信·agi
独自破碎E1 小时前
【前缀和+哈希】LCR_011_连续数组
算法·哈希算法