- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
吃个糖糖几秒前
35 Opencv 亚像素角点检测车轮滚滚__4 分钟前
uniapp对接unipush 1.0 ios/androidqq_5290252918 分钟前
Torch.gatherIT古董1 小时前
【漫话机器学习系列】017.大O算法(Big-O Notation)凯哥是个大帅比1 小时前
人工智能ACA(五)--深度学习基础m0_748232921 小时前
DALL-M:基于大语言模型的上下文感知临床数据增强方法 ,补充szxinmai主板定制专家1 小时前
【国产NI替代】基于FPGA的32通道(24bits)高精度终端采集核心板卡海棠AI实验室1 小时前
AI的进阶之路:从机器学习到深度学习的演变(三)机器懒得学习2 小时前
基于YOLOv5的智能水域监测系统:从目标检测到自动报告生成