zero

九章云极AladdinEdu

大模型训练显存优化全方案：ZeRO、Offload与重计算技术对比当大语言模型的参数量从亿级迈向万亿级，我们面临的不再仅仅是算力瓶颈，更是显存墙的严峻挑战。训练一个1750亿参数的模型，仅存储FP32格式的参数、梯度和优化器状态就需要超过2TB的显存，这远远超过了当前最强单卡GPU的容量。如何在有限的硬件条件下突破显存限制，让普通研究机构和开发者也能参与大模型训练，成为了AI领域亟待解决的核心问题。

[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO上篇文章【[论文品鉴] DeepSeek V3 最新论文之 DeepEP】介绍了分布式并行策略中的EP，简单的提到了其他几种并行策略，但碍于精力和篇幅限制决定将内容分几期，本期首先介绍DP，但并不是因为DP简单，相反DP的水也很深，例如：“DP到底同步的是什么数据？怎么同步的？“，“AllReduce/Ring-AllReduce是什么？”，“ZeRO1、2、3又都是什么？” 等各种问题，会结合PyTorch代码，尽量做到详细由浅入深。

DeepSpeed：PyTorch优化库，使模型分布式训练能高效使用内存和更快速DeepSpeed是一个PyTorch优化库，它能让大模型的分布式训练更加节省内存和更快速。它的核心是ZeRO,ZeRO让大规模的训练大模型成为可能。ZeRO有以下几个工作状态：

愤怒的可乐

[论文笔记]ZeRO: Memory Optimizations Toward Training Trillion Parameter Models今天带来ZeRO: Memory Optimizations Toward Training Trillion Parameter Models的论文笔记。

我是有底线的