【深度学习】学习笔记——批量和动量

批量

实际计算梯度时,并不是对所有数据的损失 L L L计算梯度,而是把所有数据分成一个一个的批量(batch)。遍历所有批量的过程称为一个回合(epoch),数据分为批量时,还会进行随机打乱(shuffle)。

在有并行计算的情况下,小的批量跟大的批量运算的时间没有太大的差距。除非大的批量非常大才会显示出差距。但是一个回合需要的时间,小的批量比较长,大的批量反而是比较快的。所以从一个回合需要的时间来看,大的批量是比较有优势的。而小的批量更新的方向比较有噪声,大的批量更新的方向比较稳定。但是有噪声的更新方向反而在优化的时候有优势,而且在测试的时候也会有优势。所以大的批量跟小的批量各有优缺点,批量大小是需要去调整的超参数。

动量

动量法是另外一个可以对抗鞍点或局部最小值的方法。

动量法是参考了真实的物理世界里一个球如果从高处滚下来,就算滚到鞍点,因为惯性的关系,他还是会继续往前走。如果球的动量足够大,其甚至翻过小坡继续往前走。

相关推荐
Uzuki2 小时前
LLM 指标 | PPL vs. BLEU vs. ROUGE-L vs. METEOR vs. CIDEr
深度学习·机器学习·llm·vlm
壹Y.4 小时前
非线性规划学习笔记
学习·数学建模
暗流者4 小时前
AAA 服务器与 RADIUS 协议笔记
运维·服务器·笔记
项目題供诗4 小时前
React学习(十二)
javascript·学习·react.js
艾莉丝努力练剑5 小时前
【C语言16天强化训练】从基础入门到进阶:Day 7
java·c语言·学习·算法
Ro Jace5 小时前
科研笔记:博士生手册
笔记
#include>5 小时前
【Golang】有关垃圾收集器的笔记
笔记·golang
自强的小白6 小时前
学习Java24天
java·学习
Qlittleboy6 小时前
手机、电脑屏幕的显示坏点检测和成像原理
经验分享·笔记
2501_924890527 小时前
商超场景徘徊识别误报率↓79%!陌讯多模态时序融合算法落地优化
java·大数据·人工智能·深度学习·算法·目标检测·计算机视觉