- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
fsnine12 分钟前
深度学习——残差神经网路荼蘼21 分钟前
迁移学习实战:基于 ResNet18 的食物分类乖女子@@@33 分钟前
React笔记_组件之间进行数据传递和鲸社区42 分钟前
《斯坦福CS336》作业1开源,从0手搓大模型|代码复现+免环境配置fanstuck43 分钟前
2025 年高教社杯全国大学生数学建模竞赛C 题 NIPT 的时点选择与胎儿的异常判定详解(一)cxr8281 小时前
Claude Code PM 深度实战指南:AI驱动的GitHub项目管理与并行协作THMAIL1 小时前
深度学习从入门到精通 - LSTM与GRU深度剖析:破解长序列记忆遗忘困境Gyoku Mint1 小时前
NLP×第六卷:她给记忆加了筛子——LSTM与GRU的贴靠机制要做朋鱼燕1 小时前
【C++】 priority_queue 容器模拟实现解析ST.J1 小时前
swing笔记