15 大模型训练 内存优化

先看GPU结构,我们常说显存的时候,说的一般就是Global memory

训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。

在训练的过程中,那些会消耗内存呢?

  • model weights
  • optimizer sates
  • intermediate activation values

对于有N层的神经网络来说,内存的消耗是O(N)的。

检查点技术

在前向传播的时候,只选择保留部分数值,当进行反向传播时,所需要的中间值会进行重计算。

这样虽然会增减计算成本,但是也大大减少了内存占用。

模型并行

将模型进行拆分

数据并行

将minibatch 划分成更小的micobatch,训练每个batch的时候,每个工作节点获得一个microbatch,

梯度更新

各个节点之间计算出来的梯度要统一,可以使用 all-reduce或者 使用一个参数服务器用来统一更新各个节点之间的梯度。

为了加快训练,可以使得参数传递和计算过程互相掩盖

READING LIST:

  • ZeRO
  • Beyond Data and Model Parallelism for Deep Neural Networks
  • GSPMD: General and Scalable Parallelization for ML Computation Graphs
相关推荐
HPC_fac130520678161 天前
RTX 4090 系列即将停产,RTX 5090 系列蓄势待发
服务器·人工智能·gpu算力
virtaitech2 天前
OrionX GPU算力池助力AI OCR场景应用
人工智能·ai·ocr·gpu算力·ai算力资源池化
文艺倾年6 天前
【大模型专栏—入门篇】科研数据与显卡使用
预处理·gpu算力·gpu·数据·数据处理
大新新大浩浩7 天前
使用lspci命令获取加速卡型号
gpu算力
高性能服务器9 天前
探索GPU算力在大模型和高性能计算中的无限潜能
算法·语言模型·gpu算力·hpc·高性能计算
DO_Community12 天前
印度数据中心关闭潮:DigitalOcean 为何成为中国企业的新选择
服务器·数据库·人工智能·ai·云计算·gpu算力
陈在天box15 天前
GPU算力租用平台推荐
gpu算力
yutianzuijin17 天前
常见的GPU性能对比
gpu算力·算力·高通·苹果·英伟达·int8
丶213621 天前
【CUDA】在Windows11,GTX3060上安装cuda环境
人工智能·机器学习·gpu算力
DisonTangor23 天前
NVIDIA将在Hot Chips 2024会议上展示Blackwell服务器装置
运维·服务器·人工智能·gpu算力