- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
嵌入式-老费19 分钟前
自己动手写深度学习框架(感知机)化作星辰36 分钟前
使用 PyTorch来构建线性回归的实现mm-q29152227291 小时前
【天野学院5期】 第5期易语言半内存辅助培训班,主讲游戏——手游:仙剑奇侠传4,端游:神魔大陆2谢景行^顾1 小时前
深度学习-损失函数xier_ran1 小时前
关键词解释: LoRA(Low-Rank Adaptation)详解黄焖鸡能干四碗1 小时前
信息安全管理制度(Word)paopao_wu1 小时前
DeepSeek-OCR实战(01):基础运行环境搭建-UbuntuAltair澳汰尔1 小时前
新闻速递丨Altair RapidMiner 数据分析和 AI 平台助力企业加速智能升级:扩展智能体 AI 及分析生态系统oil欧哟1 小时前
GitHub星标3万,OpenAI 官方支持——深度解读 AI Agent 连接协议的行业标准 MCPlittle_xianzhong1 小时前
三个常听到的消息/中间件MQTT RabbitMQ Kafka