梯度下降的基本原理

序言:最近再整理之前的一些笔记,感觉梯度下降之前整理的很详细也很杂乱,删了也不是,留着看着也烦,就发到这里来当个备用吧。

随机梯度下降(SGD)

求极小值:①有条件的极小值(有条件的用拉格朗日),②无条件的极小值(无条件的用梯度下降)。

梯度是什么:

梯度有什么用:

怎么走:

梯度下降的迭代举例:

关键算法:

Momentum算法

NAG算法

Adagrad算法

RMSprop算法

解决了Adagrad算法中学习率衰减过快的问题。

改进点:1.时间窗口机制

2.均值代替平方和

3.历史梯度均值和当前梯度加权平均

AdaDelta算法

Adam算法

Adam吸收了Adagrad(自适应学习率的梯度下降算法)和动量梯度下降算法的优点既能适应稀疏梯度(即自然语言和计算机视觉问题),又能缓解梯度震荡的问题.

相关推荐
金井PRATHAMA1 小时前
语义网络对人工智能自然语言处理中深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
长路归期无望2 小时前
C语言小白实现多功能计算器的艰难历程
c语言·开发语言·数据结构·笔记·学习·算法
程序猿阿伟2 小时前
《重构工业运维链路:三大AI工具让设备故障“秒定位、少误判”》
运维·人工智能·重构
yueyuebaobaoxinx2 小时前
聚焦技术落地,展现 AI 重构产业的实践路径。
人工智能·重构
算家云2 小时前
Sora 2 的社交野心:AI 如何重构内容社交产品逻辑?
人工智能·openai·算家云·租算力,到算家云·sora 2·ai社交
飞哥数智坊2 小时前
Qwen3 Omni 的“全模态”,到底和多模态有啥不一样?
人工智能
MobotStone2 小时前
AI训练的悖论:为什么越追求准确率越会产生幻觉?
算法
文火冰糖的硅基工坊3 小时前
[光学原理与应用-480]:《国产检测设备对比表》
前端·人工智能·系统架构·制造·半导体·产业链
河南博为智能科技有限公司3 小时前
动力环境监控主机-全方位一体化监控解决方案
运维·服务器·人工智能·物联网·边缘计算
怀旧,4 小时前
【C++】26. 智能指针
开发语言·c++·算法