- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
张拭心2 小时前
Cursor 又偷偷更新,这个功能太实用:Visual Editor for Cursor Browser吴佳浩3 小时前
大模型 MoE,你明白了么?im_AMBER4 小时前
Leetcode 74 K 和数对的最大数目Blossom.1185 小时前
基于Embedding+图神经网络的开源软件供应链漏洞检测:从SBOM到自动修复的完整实践t198751285 小时前
电力系统经典节点系统潮流计算MATLAB实现万悉科技5 小时前
比 Profound 更适合中国企业的GEO产品断剑zou天涯5 小时前
【算法笔记】蓄水池算法mqiqe5 小时前
vLLM(vLLM.ai)生产环境部署大模型V1ncent Chen5 小时前
机器是如何“洞察“世界的?:深度学习AI营销前沿5 小时前
中国AI营销专家深度解析:谁在定义AI营销的未来?