15 大模型训练 内存优化

先看GPU结构,我们常说显存的时候,说的一般就是Global memory

训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。

在训练的过程中,那些会消耗内存呢?

  • model weights
  • optimizer sates
  • intermediate activation values

对于有N层的神经网络来说,内存的消耗是O(N)的。

检查点技术

在前向传播的时候,只选择保留部分数值,当进行反向传播时,所需要的中间值会进行重计算。

这样虽然会增减计算成本,但是也大大减少了内存占用。

模型并行

将模型进行拆分

数据并行

将minibatch 划分成更小的micobatch,训练每个batch的时候,每个工作节点获得一个microbatch,

梯度更新

各个节点之间计算出来的梯度要统一,可以使用 all-reduce或者 使用一个参数服务器用来统一更新各个节点之间的梯度。

为了加快训练,可以使得参数传递和计算过程互相掩盖

READING LIST:

  • ZeRO
  • Beyond Data and Model Parallelism for Deep Neural Networks
  • GSPMD: General and Scalable Parallelization for ML Computation Graphs
相关推荐
AI狂热爱好者2 天前
Meta 上周宣布正式开源小型语言模型 MobileLLM 系列
人工智能·ai·语言模型·自然语言处理·gpu算力
LeonNo1112 天前
软考:GPU算力,AI芯片
人工智能·gpu算力
HPC_fac1305206781613 天前
三款计算服务器配置→如何选择科学计算服务器?
服务器·人工智能·科技·深度学习·计算机视觉·数据挖掘·gpu算力
HPC_fac1305206781614 天前
2024 AI 时代:科学计算服务器——科技创新核心动力源
服务器·人工智能·科技·gpu算力·1024程序员节
HPC_fac1305206781614 天前
计算服务器:开启科学计算新变革的强大引擎
服务器·人工智能·科技·计算机视觉·gpu算力·1024程序员节
丶213615 天前
【PyTorch 】【CUDA】深入了解 PyTorch 中的 CUDA 和 cuDNN 版本及 GPU 信息
人工智能·pytorch·gpu算力
广东性感学术大蟑螂=V=16 天前
第九届清洁能源与发电技术国际学术会议(CEPGT 2024)
大数据·人工智能·自动化·系统安全·智慧城市·能源·gpu算力
OCR_wintone42118 天前
TH-OCR:高效的文字识别工具与护照阅读器的完美结合
人工智能·ocr·gpu算力
文文戴18 天前
1 -《本地部署开源大模型》如何选择合适的硬件配置
人工智能·语言模型·开源·gpu算力
科技互联人生19 天前
NVIDIA Hopper GPU 架构
人工智能·gpu算力