机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)

  • 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
    • 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
  • ------>提出了linear scaling learning rate
    • 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
    • ------>batch size 增加时,增大学习率来加快收敛
      • eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为 0.1 × b/256
相关推荐
视觉&物联智能5 分钟前
【杂谈】-人工智能新范式:神经符号大语言模型的崛起
人工智能·语言模型·自然语言处理
karlso6 分钟前
深度学习:优化器(Optimizer)
人工智能·深度学习
AIGC包拥它19 分钟前
检索召回率优化探究二:基于 LangChain 0.3集成 Milvus 2.5向量数据库构建的智能问答系统
人工智能·python·langchain·软件工程·个人开发·milvus
aneasystone本尊1 小时前
再学 RAGFlow 的问答流程(二)
人工智能
zhurui_xiaozhuzaizai1 小时前
多向量检索:lanchain,dashvector,milvus,vestorsearch,MUVERA
人工智能·算法·机器学习·全文检索·milvus
星期天要睡觉1 小时前
机器学习——决策树(DecisionTree)
人工智能·决策树·机器学习
WeiJingYu.1 小时前
机器学习——决策树
人工智能·决策树·机器学习
大阳1231 小时前
数据结构(概念及链表)
c语言·开发语言·数据结构·经验分享·笔记·算法·链表
励志成为糕手1 小时前
动态置信度调优实战:YOLOv11多目标追踪精度跃迁方案(附完整代码)
人工智能·计算机视觉·目标跟踪
m0_558790142 小时前
GPU算力平台评测
服务器·人工智能·python·深度学习·神经网络·目标检测·机器学习