- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
HPC_fac1305206781619 分钟前
以科学计算为切入点:剖析英伟达服务器过热难题小陈phd3 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算冰帝海岸3 小时前
01-spring security认证笔记Guofu_Liao4 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结小二·4 小时前
java基础面试题笔记(基础篇)wusong9997 小时前
mongoDB回顾笔记(一)猫爪笔记7 小时前
前端:HTML (学习笔记)【1】Resurgence037 小时前
【计组笔记】习题ZHOU_WUYI8 小时前
3.langchain中的prompt模板 (few shot examples in chat models)如若1238 小时前
主要用于图像的颜色提取、替换以及区域修改