- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
IT_陈寒1 小时前
JavaScript这5个隐藏技巧,90%的开发者都不知道!IvanCodes1 小时前
Anthropic突然开火:中国大模型被指大规模蒸馏攻击风象南2 小时前
AI 写代码效果差?大多数人第一步就错了KaneLogger12 小时前
【Agent】openclaw + opencode 打造助手 安装篇知识浅谈13 小时前
一步步带你把 OpenClaw 玩宕机(附云服务器避坑部署教程)冬奇Lab14 小时前
OpenClaw 深度解析(四):插件 SDK 与扩展开发机制IT_陈寒15 小时前
SpringBoot实战:5个让你的API性能翻倍的隐藏技巧机器之心15 小时前
让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审iceiceiceice15 小时前
iOS PDF阅读器段评实现:如何从 PDFSelection 精准还原一个自然段