15 大模型训练 内存优化

先看GPU结构,我们常说显存的时候,说的一般就是Global memory

训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。

在训练的过程中,那些会消耗内存呢?

  • model weights
  • optimizer sates
  • intermediate activation values

对于有N层的神经网络来说,内存的消耗是O(N)的。

检查点技术

在前向传播的时候,只选择保留部分数值,当进行反向传播时,所需要的中间值会进行重计算。

这样虽然会增减计算成本,但是也大大减少了内存占用。

模型并行

将模型进行拆分

数据并行

将minibatch 划分成更小的micobatch,训练每个batch的时候,每个工作节点获得一个microbatch,

梯度更新

各个节点之间计算出来的梯度要统一,可以使用 all-reduce或者 使用一个参数服务器用来统一更新各个节点之间的梯度。

为了加快训练,可以使得参数传递和计算过程互相掩盖

READING LIST:

  • ZeRO
  • Beyond Data and Model Parallelism for Deep Neural Networks
  • GSPMD: General and Scalable Parallelization for ML Computation Graphs
相关推荐
facaixxx20242 天前
GPU算力租赁:3080Ti、Tesla P40和RTX40服务器配置整理
运维·服务器·gpu算力
纪伊路上盛名在3 天前
在vscode中使用colab的GPU算力
ide·vscode·python·编辑器·开发工具·gpu算力·colab
深耕AI7 天前
【CUDA安装报错?】Nsight Visual Studio Edition安装失败《终极解决方法》
windows·经验分享·gpu算力
IT·小灰灰7 天前
AI算力租赁完全指南(一):选卡篇——从入门到精通的GPU选购
大数据·人工智能·数据分析·云计算·音视频·gpu算力
仪***沿9 天前
预测算法三:LSTM、EMDKPCALSTM等
gpu算力
捷智算云服务14 天前
A100云主机租赁价格贵吗?具体费用是多少?
服务器·人工智能·云计算·gpu算力
中杯可乐多加冰15 天前
深度解析openFuyao核心组件:从NUMA亲和调度看云原生算力释放新思路
华为·云原生·k8s·gpu算力·openfuyao
Sinnet-cloud16 天前
以AI算力基建赋能中国企业出海新征程 | 光环云香港亮相2025 GIS全球创新峰会
人工智能·gpu算力
mit6.82416 天前
[bak]多线程&cuda
gpu算力
quantanexus深算工场16 天前
Quantanexus(QN)深算工场AI智能调度平台安装
人工智能·ai·gpu算力·深算工场·gpu管理软件·ai实训教学平台