机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)

  • 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
    • 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
  • ------>提出了linear scaling learning rate
    • 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
    • ------>batch size 增加时,增大学习率来加快收敛
      • eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为 0.1 × b/256
相关推荐
拾光拾趣录12 小时前
为什么采用多路检索而不是单一向量检索?
人工智能
拾光拾趣录12 小时前
Agent 编排器是怎么设计的?为什么这样设计?
人工智能
拾光拾趣录13 小时前
为什么选择 ReAct 模式而不是 Plan-and-Execute?
人工智能
武子康13 小时前
调查研究-196 CEO-Bench:Agent 不再只是“做任务“,而是要学会“经营一个系统“
人工智能
用户3299016750513 小时前
把AI返回的Markdown表格渲染成可排序表格
人工智能
还好还好不是吗13 小时前
MatrixMedia HTTP 发布接口:让 AI 工作流直接驱动多平台视频发布
人工智能
贵慜_Derek13 小时前
复杂系统没法一把梭重构:Semi-Autoresearch 怎么小步迁移还不掉功能
人工智能·agent·ai编程
ctxinf13 小时前
Vercel Eve 实际上手初探
人工智能
用户51914958484513 小时前
利用ShellcodePack实现DLL劫持与COM对象劫持技术详解
人工智能·aigc
武子康13 小时前
调查研究-195 从 AmEx 支付系统看 Cell-based Architecture:真正的高可用,不是无限重试,而是控制失败边界
人工智能·openai·agent