- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
bughunter几秒前
Function Calling 踩坑实录:让 AI 真正动手帮你干活十铭忘2 分钟前
InfoGCN++:通过预测未来学习表征以实现在线骨架人体动作识别漫游的渔夫2 分钟前
从 Fetch 到 RAG:为什么你的 AI 知识库总是“胡言乱语”?Jempo M3 分钟前
为GitHub Copilot手搓一个可调用工具的AI Agent产品人卫朋3 分钟前
AI硬件产品怎么做?Nova Sphere桌面设备探物 AI4 分钟前
【感知实战·数据增强篇】深度解析目标检测中的图片数据增强算法,多图演示效果QYR-分析4 分钟前
全地形轮足机器人行业发展分析:分类、格局与市场机遇Codigger官方5 分钟前
生态破局:从孤岛工具到协同奇点以梦为马无处可栖5 分钟前
AxVisor 深度学习笔记-ARM 虚拟化硬件原理三品吉他手会点灯6 分钟前
C语言学习笔记 - 5.C概述 - C的应用领域