我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客
或者
https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md
最好将URL复制到浏览器中打开,不然可能无法直接打开
好了,我们今天针对上面的问题,
大模型的训练和推理中显存和计算量的情况?
先说结论:
-
参数量
,令该值为
-
训练计算量
,只是前向的,后向是2倍
-
训练显存量
(假设以2-bype来表示中间激活),这个算出来的结果就是bytes,不是数值的个数,其中包括了模型参数、梯度和优化器状态,34bsh是中间激活
-
推理显存量
(假设是2-byte),其中的表示模型显存。