- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
z小猫不吃鱼11 分钟前
13 Scaling Law 入门:模型规模、数据规模和计算量是什么关系?七牛开发者21 分钟前
如何从零开发一个工业级的 SKILL瘦瘦瘦大人23 分钟前
豆包与抖音联动创作新手实战指南jialiguo24 分钟前
博客摘录「 尚硅谷Vue3入门到实战,最新版Vue3+TypeScript前端开发教程」2024年8月7日三无推导26 分钟前
ComfyUI 安装部署教程:Windows 下快速搭建可视化 AI 绘图工作流,零基础也能跑通春日见27 分钟前
5分钟入门强化学习之动态规划算法与实现老虾头30 分钟前
AI工具在传统行业服务升级中的应用案例分享SNKXD_135 分钟前
2026品牌运营团队AI营销培训:TOP5轻量化课程适配常态化技能升级学习Nan-h135 分钟前
AI 浏览器怎么选:侧边栏助手、浏览器 Agent 和可复用工作流的差别TMT星球39 分钟前
AI时代的风控攻防战:Soul如何用AI治理AI