- 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
- 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
- ------>提出了linear scaling learning rate
- 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
- ------>batch size 增加时,增大学习率来加快收敛
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
0.1 × b/256
- eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为
机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)
UQI-LIUWJ2023-12-17 19:07
相关推荐
qyresearch_3 小时前
全球电子发票市场深度解析:技术驱动、政策引领与绿色转型下的增长新范式反向跟单策略3 小时前
如何正确看待期货反向跟单策略?东方轧线3 小时前
突破锁竞争的性能枷锁:深度剖析 C++ 内存模型与无锁编程在超大规模并行 AI 系统中的极致应用实践Java后端的Ai之路3 小时前
【AI大模型开发】-创建RAG问答实战(LangChain+DeepSeek+Faiss)AI科技星4 小时前
光的几何起源:从螺旋时空到量子现象的完全统一小程故事多_804 小时前
打破传统桎梏,LLM 让智能运维实现从 “自动化” 到 “自进化”星爷AG I4 小时前
9-9 数量与密度(AGI基础理论)Tiaoxiaobai4 小时前
如何实现亚细胞定位龙仔7254 小时前
n2n supernode Linux完整部署笔记,包含离线部署,cc_beolus4 小时前
昇腾AI入门