机器学习笔记:linear scaling learning rate (学习率 和batch size的关系)

  • 在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多
    • 换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小
  • ------>提出了linear scaling learning rate
    • 在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差
    • ------>batch size 增加时,增大学习率来加快收敛
      • eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为 0.1 × b/256
相关推荐
艾醒(AiXing-w)1 分钟前
玩转大语言模型——使用langchain和Ollama本地部署大语言模型
人工智能·语言模型·langchain
我的青春不太冷17 分钟前
2025年最新在线模型转换工具优化模型ncnn,mnn,tengine,onnx
人工智能·深度学习·ncnn·mnn·在线模型转换网址
云卷云舒___________23 分钟前
【B站保姆级视频教程:Jetson配置YOLOv11环境(六)PyTorch&Torchvision安装】
人工智能·pytorch·yolo·教程·jetson·torchvision
zxfeng~28 分钟前
深度学习之“线性代数”
人工智能·python·深度学习·线性代数
油泼辣子多加32 分钟前
Diffusion--人工智能领域的革命性技术
人工智能
wdxylb34 分钟前
GIt使用笔记大全
笔记·git·elasticsearch
一只码代码的章鱼1 小时前
计算机网络 应用层 笔记1(C/S模型,P2P模型,FTP协议)
笔记·计算机网络
霸王蟹1 小时前
el-table组件样式如何二次修改?
前端·javascript·vue.js·笔记·学习·前端框架
haidizym1 小时前
(笔记+作业)书生大模型实战营春节卷王班---L1G3000 浦语提示词工程实践
笔记