- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
美狐美颜sdk2 分钟前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能孞㐑¥25 分钟前
Linux之Socket 编程 UDPDeepSeek-大模型系统教程26 分钟前
推荐 7 个本周 yyds 的 GitHub 项目。郭庆汝33 分钟前
pytorch、torchvision与python版本对应关系IT古董34 分钟前
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器小雷FansUnion2 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战资讯分享周3 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代sealaugh323 小时前
aws(学习笔记第四十八课) appsync-graphql-dynamodb叶子爱分享4 小时前
计算机视觉与图像处理的关系鱼摆摆拜拜4 小时前
第 3 章:神经网络如何学习