15 大模型训练 内存优化

先看GPU结构,我们常说显存的时候,说的一般就是Global memory

训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。

在训练的过程中,那些会消耗内存呢?

  • model weights
  • optimizer sates
  • intermediate activation values

对于有N层的神经网络来说,内存的消耗是O(N)的。

检查点技术

在前向传播的时候,只选择保留部分数值,当进行反向传播时,所需要的中间值会进行重计算。

这样虽然会增减计算成本,但是也大大减少了内存占用。

模型并行

将模型进行拆分

数据并行

将minibatch 划分成更小的micobatch,训练每个batch的时候,每个工作节点获得一个microbatch,

梯度更新

各个节点之间计算出来的梯度要统一,可以使用 all-reduce或者 使用一个参数服务器用来统一更新各个节点之间的梯度。

为了加快训练,可以使得参数传递和计算过程互相掩盖

READING LIST:

  • ZeRO
  • Beyond Data and Model Parallelism for Deep Neural Networks
  • GSPMD: General and Scalable Parallelization for ML Computation Graphs
相关推荐
深圳佛手1 天前
GPU算力租用平台与选型指南
gpu算力
lhyzws2 天前
CENTOS上的网络安全工具(二十九)GPU助力SPARK
linux·spark·gpu算力
tech-share3 天前
基于pytorch 自建AI大模型
人工智能·深度学习·机器学习·gpu算力
杰克逊的日记14 天前
通过Prometheus对GPU集群进行监控以及搭建(小型集群)
prometheus·gpu算力·gpu服务器监控
杰克逊的日记14 天前
中型 GPU 服务集群监控方案(10-50 节点)
人工智能·gpu算力·gpu监控
猫头虎19 天前
昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地
人工智能·百度·开源·aigc·文心一言·gpu算力·agi
科技峰行者21 天前
华为发布Atlas 900 DeepGreen AI服务器:单机柜100PF算力重构AI训练基础设施
服务器·人工智能·华为·aigc·gpu算力
GMICLOUD23 天前
网易科技专访 GMI Cloud 创始人&CEO Alex Yeh:以“产品+布局+服务”构建全球竞争力
人工智能·科技·ai·gpu算力·agi·ai应用·ai基础设施
云资源服务商23 天前
阿里云智能计算灵骏:构建下一代AI算力新底座
阿里云·云计算·gpu算力
I_belong_to_jesus24 天前
tiny-gpu入门4: ALU模块分析
gpu算力·gpu