15 大模型训练 内存优化

先看GPU结构,我们常说显存的时候,说的一般就是Global memory

训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。

在训练的过程中,那些会消耗内存呢?

  • model weights
  • optimizer sates
  • intermediate activation values

对于有N层的神经网络来说,内存的消耗是O(N)的。

检查点技术

在前向传播的时候,只选择保留部分数值,当进行反向传播时,所需要的中间值会进行重计算。

这样虽然会增减计算成本,但是也大大减少了内存占用。

模型并行

将模型进行拆分

数据并行

将minibatch 划分成更小的micobatch,训练每个batch的时候,每个工作节点获得一个microbatch,

梯度更新

各个节点之间计算出来的梯度要统一,可以使用 all-reduce或者 使用一个参数服务器用来统一更新各个节点之间的梯度。

为了加快训练,可以使得参数传递和计算过程互相掩盖

READING LIST:

  • ZeRO
  • Beyond Data and Model Parallelism for Deep Neural Networks
  • GSPMD: General and Scalable Parallelization for ML Computation Graphs
相关推荐
鱼儿听雨眠2 天前
【Ubuntu】GPU显存被占用,但显示没有使用GPU的进程
linux·服务器·ubuntu·gpu算力
天翼云开发者社区4 天前
越“挖”越有料,天翼云“息壤”助攻DeepSeek变身万能搭子!
人工智能·gpu算力·ai应用·deepseek
天翼云开发者社区4 天前
解锁DeepSeek深度应用,天翼云GPU云主机强势破局!
云计算·gpu算力·ai应用·deepseek
luckyBai_086 天前
TensorFlow项目GPU运行 安装步骤
gpu算力
微学AI1 个月前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
微学AI1 个月前
GPU算力平台|在GPU算力平台部署MuseTalk与MuseV结合的虚拟人的应用教程
gpu算力
微学AI1 个月前
GPU算力平台|在GPU算力平台部署AI虚拟换衣模型(CatVTON)的应用实战教程
人工智能·gpu算力
微学AI1 个月前
GPU算力平台|在GPU算力平台部署MedicalGPT医疗大模型的应用教程
大模型·llm·gpu算力
微学AI1 个月前
GPU算力平台|在GPU算力平台部署轻量级中文OCR项目(chineseocr_lite)
ocr·gpu算力
高性能服务器1 个月前
英伟达 2025 CES:GPU与智算中心协同驱动 GPU算力智能变革
大数据·语言模型·llm·aigc·gpu算力·智算中心·ai算力