15 大模型训练 内存优化

先看GPU结构,我们常说显存的时候,说的一般就是Global memory

训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。

在训练的过程中,那些会消耗内存呢?

  • model weights
  • optimizer sates
  • intermediate activation values

对于有N层的神经网络来说,内存的消耗是O(N)的。

检查点技术

在前向传播的时候,只选择保留部分数值,当进行反向传播时,所需要的中间值会进行重计算。

这样虽然会增减计算成本,但是也大大减少了内存占用。

模型并行

将模型进行拆分

数据并行

将minibatch 划分成更小的micobatch,训练每个batch的时候,每个工作节点获得一个microbatch,

梯度更新

各个节点之间计算出来的梯度要统一,可以使用 all-reduce或者 使用一个参数服务器用来统一更新各个节点之间的梯度。

为了加快训练,可以使得参数传递和计算过程互相掩盖

READING LIST:

  • ZeRO
  • Beyond Data and Model Parallelism for Deep Neural Networks
  • GSPMD: General and Scalable Parallelization for ML Computation Graphs
相关推荐
xingyuzhisuan3 天前
稳定性考验:连续跑7天,哪家云主机不重启、不掉线?
服务器·人工智能·gpu算力
木雷坞3 天前
K8s GPU 推理服务 ImagePullBackOff 排查与预热
云原生·容器·kubernetes·gpu算力
ZStack开发者社区4 天前
ZStack dGPU:让虚拟机里的 GPU 也能按需切分
云计算·gpu算力
活跃的煤矿打工人5 天前
【星海出品】防止大模型强依赖(二)
ai·gpu算力
算力百科小星5 天前
2026分布式算力平台综合测评:多机多卡多任务并行
gpu算力
算力百科小智5 天前
2026年H100高端算力平台实测测评:稀缺显卡租用报告
gpu算力
奇思智算6 天前
小白AI创作GPU算力平台测评:多平台对比与选择指南
大数据·人工智能·gpu算力·智星云·gpu算力租用
aq55356008 天前
AI训练GPU算力指南:从入门到超算的精准匹配
人工智能·gpu算力
隔窗听雨眠8 天前
GPU算力梯队与任务匹配指南
人工智能·gpu算力
zhenxin01229 天前
GPU算力梯队:从入门到超算的AI任务匹配指南
人工智能·gpu算力