深度学习-批量与动量【Datawhale X 李宏毅苹果书 AI夏令营】

实际工程中使用批量和动量可以对抗鞍点或局部最小值。

批量:

在计算梯度的时候不会用所有数据计算损失。类比我们考试复习时,一个单元一个单元的知识点输入,所有单元都输入就是一整个轮回。而这一个单元用深度学习的术语来说就是批量(batch)。遍历所有批量就是一个回合(epoch)。

使用全批量的数据来更新参数的方法叫做批量梯度下降法(BGD),在下降的梯度上引入随机噪声,叫做随机梯度下降法(SGD)。

相对而言,大的批量更新比较稳定,小的批量梯度方向存在一定的噪声,有噪声的梯度反而可以帮助训练。

动量:

如果一个球从高处滚下来,由于惯性它会继续往前走,如果动量足够大,甚至可以翻越小坡继续走。这就是动量。简单些理解,在高处下落的球在滑落到局部最低的坡之后会继续往高处越,假如当前的高处有一个小坡,球还是可以越过这个小坡到达下一个最低点。

相关推荐
Flying pigs~~2 分钟前
大模型Prompt-Tuning技术进阶 - 完整总结
人工智能·大模型·prompt
weikecms3 分钟前
优惠电影票API接口+大牌点餐等本地生活接口对接
人工智能·微客云
折哥的程序人生 · 物流技术专研4 分钟前
WMS智能调度实战:构建机器学习特征表的完整指南
人工智能·机器学习
墨染天姬5 分钟前
[AI]DeepSeek-R1的GRPO算法
人工智能·算法·php
拓朗工控5 分钟前
工控机在高精度视觉检测中的实际应用
人工智能·计算机视觉·视觉检测
后端小肥肠5 分钟前
我把AI童装带货做成了一个Skill,一句话就能出视频
人工智能·aigc·agent
AI技术增长9 分钟前
Pytorch图像去噪实战(二):用UNet解决DnCNN细节丢失问题(结构解析+完整代码+踩坑总结)
人工智能·pytorch·python
RD_daoyi13 分钟前
GEO时代:AI 重构下,SEO的本质与破局之路
人工智能·重构
GJGCY14 分钟前
金融AI Agent平台技术路线与落地能力对比:7家主流智能体优缺点分析
人工智能·ai·金融·数字化·智能体
直奔標竿16 分钟前
Java开发者AI转型第二十二课!Spring AI 个人知识库实战(一)——架构搭建与核心契约落地
java·人工智能·后端·spring·架构