- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
视觉&物联智能5 分钟前
【杂谈】-人工智能新范式:神经符号大语言模型的崛起karlso6 分钟前
深度学习:优化器(Optimizer)AIGC包拥它19 分钟前
检索召回率优化探究二:基于 LangChain 0.3集成 Milvus 2.5向量数据库构建的智能问答系统aneasystone本尊1 小时前
再学 RAGFlow 的问答流程(二)zhurui_xiaozhuzaizai1 小时前
多向量检索:lanchain,dashvector,milvus,vestorsearch,MUVERA星期天要睡觉1 小时前
机器学习——决策树(DecisionTree)WeiJingYu.1 小时前
机器学习——决策树大阳1231 小时前
数据结构(概念及链表)励志成为糕手1 小时前
动态置信度调优实战:YOLOv11多目标追踪精度跃迁方案(附完整代码)m0_558790142 小时前
GPU算力平台评测