- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
AORO_BEIDOU9 分钟前
科普|卫星电话有哪些应用场景?dreamczf10 分钟前
基于Linux系统的边缘智能终端(RK3568+EtherCAT+PCIe+4G+5G)@Mr_LiuYang26 分钟前
深度学习PyTorch之13种模型精度评估公式及调用方法Herbig27 分钟前
文心一言:中国大模型时代的破局者与探路者幻风_huanfeng30 分钟前
每天五分钟深度学习框架PyTorch:使用残差块快速搭建ResNet网络钡铼技术物联网关32 分钟前
导轨式ARM工业控制器:组态软件平台的“神经中枢”Moonnnn.39 分钟前
51单片机——程序执行过程(手工汇编)zyhhsss1 小时前
大模型应用开发学习笔记jndingxin1 小时前
OpenCV计算摄影学(15)无缝克隆(Seamless Cloning)调整图像颜色的函数colorChange()