【深度学习】学习笔记——批量和动量

批量

实际计算梯度时,并不是对所有数据的损失 L L L计算梯度,而是把所有数据分成一个一个的批量(batch)。遍历所有批量的过程称为一个回合(epoch),数据分为批量时,还会进行随机打乱(shuffle)。

在有并行计算的情况下,小的批量跟大的批量运算的时间没有太大的差距。除非大的批量非常大才会显示出差距。但是一个回合需要的时间,小的批量比较长,大的批量反而是比较快的。所以从一个回合需要的时间来看,大的批量是比较有优势的。而小的批量更新的方向比较有噪声,大的批量更新的方向比较稳定。但是有噪声的更新方向反而在优化的时候有优势,而且在测试的时候也会有优势。所以大的批量跟小的批量各有优缺点,批量大小是需要去调整的超参数。

动量

动量法是另外一个可以对抗鞍点或局部最小值的方法。

动量法是参考了真实的物理世界里一个球如果从高处滚下来,就算滚到鞍点,因为惯性的关系,他还是会继续往前走。如果球的动量足够大,其甚至翻过小坡继续往前走。

相关推荐
largecode8 小时前
打电话时,怎么让号码显示自己的品牌名称?办理号码认证服务流程
笔记·百度·微信·课程设计·微信公众平台·facebook·新浪微博
tzc_fly8 小时前
AnisoAlign:各向异性模态对齐
人工智能·深度学习·机器学习
米罗篮9 小时前
DSU并查集 & 拓展欧几里得-逆元
c++·经验分享·笔记·算法·青少年编程
我没胡说八道9 小时前
2026论文工具选购指南:降重、降AI率、排版一站式筛选
人工智能·经验分享·深度学习·考研·aigc·学习方法
初心未改HD9 小时前
深度学习之MLP与反向传播算法详解
人工智能·深度学习·算法
沪漂阿龙9 小时前
面试题:训练-蒸馏详解——知识蒸馏、Teacher-Student、强弱蒸馏、Qwen3 强到弱蒸馏流程全解析
人工智能·深度学习·机器学习
噜噜噜阿鲁~9 小时前
python学习笔记 | 10.0、面向对象编程
笔记·python·学习
txg6669 小时前
HgtJIT:基于异构图 Transformer 的即时漏洞检测框架
人工智能·深度学习·安全·transformer
hssfscv10 小时前
软件设计师下午题训练1-3题+2019上上午题错题解析 练习真题训练13
笔记·设计模式·uml