【深度学习】学习笔记——批量和动量

批量

实际计算梯度时,并不是对所有数据的损失 L L L计算梯度,而是把所有数据分成一个一个的批量(batch)。遍历所有批量的过程称为一个回合(epoch),数据分为批量时,还会进行随机打乱(shuffle)。

在有并行计算的情况下,小的批量跟大的批量运算的时间没有太大的差距。除非大的批量非常大才会显示出差距。但是一个回合需要的时间,小的批量比较长,大的批量反而是比较快的。所以从一个回合需要的时间来看,大的批量是比较有优势的。而小的批量更新的方向比较有噪声,大的批量更新的方向比较稳定。但是有噪声的更新方向反而在优化的时候有优势,而且在测试的时候也会有优势。所以大的批量跟小的批量各有优缺点,批量大小是需要去调整的超参数。

动量

动量法是另外一个可以对抗鞍点或局部最小值的方法。

动量法是参考了真实的物理世界里一个球如果从高处滚下来,就算滚到鞍点,因为惯性的关系,他还是会继续往前走。如果球的动量足够大,其甚至翻过小坡继续往前走。

相关推荐
星河耀银海1 小时前
3D效果:HTML5 WebGL结合AI实现智能3D场景渲染
前端·人工智能·深度学习·3d·html5·webgl
2501_926978335 小时前
AI的三次起落发展分析,及未来预测----理论5.0的应用
人工智能·经验分享·笔记·ai写作·agi
_爱明5 小时前
CUDA索引越界问题(Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions)
人工智能·深度学习
这张生成的图像能检测吗5 小时前
(论文速读)TCN:序列建模不一定需要 RNN
人工智能·深度学习·transformer·卷积·时序预测
报错小能手6 小时前
深入理解 Linux 物理内存管理
学习·操作系统
路小雨~6 小时前
Transformer架构学习笔记:从数学推导到工程实现与主流变体
笔记·ai·transformer
zx_zx_1236 小时前
哈希表的学习
学习·哈希算法·散列表
FAFU_kyp6 小时前
Kimi Coding Plan API 集成问题与解决方案
学习
科学创新前沿7 小时前
物理信息神经网络:从数据驱动到物理嵌入的科学计算新范式!
人工智能·深度学习·dft·pinn·流体力学·固体力学·断裂力学
有Li7 小时前
一种病理学内容感知变速率学习图像压缩框架 (PathoLIC)/文献速递-多模态应用技术
人工智能·深度学习·算法·计算机视觉·医学生