机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)

  • 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
    • 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
  • ------>提出了linear scaling learning rate
    • 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
    • ------>batch size 增加时,增大学习率来加快收敛
      • eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为 0.1 × b/256
相关推荐
qyresearch_3 小时前
全球电子发票市场深度解析:技术驱动、政策引领与绿色转型下的增长新范式
人工智能
反向跟单策略3 小时前
如何正确看待期货反向跟单策略?
大数据·人工智能·学习·数据分析·区块链
东方轧线3 小时前
突破锁竞争的性能枷锁:深度剖析 C++ 内存模型与无锁编程在超大规模并行 AI 系统中的极致应用实践
java·c++·人工智能
Java后端的Ai之路3 小时前
【AI大模型开发】-创建RAG问答实战(LangChain+DeepSeek+Faiss)
人工智能·langchain·faiss·deepseek
AI科技星4 小时前
光的几何起源:从螺旋时空到量子现象的完全统一
开发语言·人工智能·线性代数·算法·机器学习
小程故事多_804 小时前
打破传统桎梏,LLM 让智能运维实现从 “自动化” 到 “自进化”
运维·人工智能·自动化·aigc
星爷AG I4 小时前
9-9 数量与密度(AGI基础理论)
人工智能·agi
Tiaoxiaobai4 小时前
如何实现亚细胞定位
人工智能·笔记
龙仔7254 小时前
n2n supernode Linux完整部署笔记,包含离线部署,
linux·运维·笔记·n2n·supernode
cc_beolus4 小时前
昇腾AI入门
人工智能