- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
视觉语言导航1 小时前
ICRA-2025 | 阿德莱德机器人拓扑导航探索!TANGO:具有局部度量控制的拓扑目标可穿越性感知具身导航金水谣1 小时前
10.8考研笔记西猫雷婶5 小时前
CNN卷积计算格林威7 小时前
常规线扫描镜头有哪些类型?能做什么?倔强青铜三8 小时前
苦练Python第63天:零基础玩转TOML配置读写,tomllib模块实战递归不收敛8 小时前
吴恩达机器学习课程(PyTorch 适配)学习笔记:3.3 推荐系统全面解析B站计算机毕业设计之家8 小时前
智慧交通项目:Python+YOLOv8 实时交通标志系统 深度学习实战(TT100K+PySide6 源码+文档)✅高工智能汽车8 小时前
棱镜观察|极氪销量遇阻?千里智驾左手服务吉利、右手对标华为IT森林里的程序猿8 小时前
基于机器学习方法的网球比赛胜负趋势预测txwtech8 小时前
第6篇 OpenCV RotatedRect如何判断矩形的角度