大模型面试题:当Batch Size增大时,学习率该如何随之变化?

我整理了1000道算法面试题

获取

该问题大答案的理论分析请参考苏剑林的科学空间,地址位于 https://kexue.fm/archives/10542

说下结论:从方差的角度来分析,有两个角度来说明学习率应该和Batch size的关系,一个是呈现根号的关系,也即Batch size增大x倍,学习率增大根号x倍,另一个角度是呈现线性的关系,也即Batch size增大x倍,学习率增大x倍。从损失的角度来分析,学习率随着Batch Size的增加而单调递增但有上界。

  • 方差角度
  1. 作者明确了自2014年的《One weird trick for parallelizing convolutional neural networks》,该论文的推导原理是让SGD增量的方差保持不变。若干个推导明确了通过调整学习率η 让增量的噪声强度即协方差矩阵保持不变,得到了一个是呈现根号的关系,也即Batch size增大x倍,学习率增大根号x倍。

  2. 作者明确了在实践中,Batch size增大x倍且学习率增大根号x倍的表现最好,中间涉及了一些推导,主要是基于梯度的噪声是正态分布的假设开始。

  • 损失角度
  1. 作者说了经典工作是OpenAI的《An Empirical Model of Large-Batch Training》,它通过损失函数的二阶近似来分析SGD的最优学习率,得出"学习率随着Batch Size的增加而单调递增但有上界"的结论。整个推导过程值将学习率也作为待优化的参数写进到损失函数L里面去,然后通过二阶泰勒展开得到n_max,也就是学习率最大的表达式,,可以看到B越大的话,学习率也可以越大,但是最后会饱和。
  • 其它
  1. 实际在训练过程中,先通过海塞矩阵和梯度得到,然后通过小批量的数据得到,然后结合B得到。

  2. 表明数据量越小,那么应该缩小Batch Size,让训练步数更多,才能更有机会达到更优的解。

  • 大模型

    简单说,openai发现,用大batch size配合大的learning rate,和用小batch size和小learning rate最终到达的效果是一样的。当然,后面他们也一直都是这样实践的。

参考

1\] https://kexue.fm/archives/10542

相关推荐
我是无敌小恐龙10 分钟前
Java基础入门Day10 | Object类、包装类、大数/日期类、冒泡排序与Arrays工具类 超详细总结
java·开发语言·数据结构·算法·贪心算法·排序算法·动态规划
yuanyuan2o227 分钟前
从最小项目开始的 CMake 教程
c语言·开发语言·arm开发·c++·makefile·make·cmake
lifewange28 分钟前
pytest 找不到文件?直接在 pytest.ini 配置根目录 + 路径(最简单方案)
开发语言·python·pytest
可可西里_X_back31 分钟前
Linux学习(二)- 驱动开发步骤
linux·驱动开发·学习
大鹏说大话36 分钟前
MySQL + Redis + Caffeine:Java后端通用三级缓存架构实战
开发语言
yuanpan39 分钟前
Python 桌面 GUI 入门开发:从 tkinter 窗口到简易记事本
开发语言·python
GISer_Jing1 小时前
测绘与GIS考试高频考点选择题精选
学习·arcgis
User_芊芊君子1 小时前
聊聊自由开发者常用的学习机会全解析
开发语言·人工智能·python
OBiO20131 小时前
从单细胞多组学到体内验证:器官纤维化与代谢疾病的研究新范式
笔记·学习
AI人工智能+电脑小能手1 小时前
【大白话说Java面试题】【Java基础篇】第40题:Java中的深拷贝和浅拷贝有什么区别
java·开发语言·后端·面试