【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题？

【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题？

重要性：★★

零冗余优化器技术由 DeepSpeed 代码库提出，主要用于解决数据并行中的模型冗余问题，即每张 GPU 均需要复制一份模型参数。

ZeRO的全称是Zero Redundancy Optimizer，意为去除冗余的优化器。在之前的分布式训练中，我们了解到训练模型时，主要占用的参数主要分为了三个部分：模型参数（Parameters ），优化器状态（Optimizer States ），梯度(Gradients)，他们三个简称为OPG。其中优化器状态会占据大约2倍参数量的显存空间，这取决于选择的优化器，也是整个训练中占据最大空间的部分。

ZeRO被分为了三个级别：

ZeRO1：对优化器状态进行拆分。显存消耗减少 4 倍，通信量与数据并行相同。
ZeRO2：在ZeRO1的基础上，对梯度进行拆分。显存消耗减少 8 倍，通信量与数据并行相同。
ZeRO3：在ZeRO2的基础上，对模型参数进行拆分。模型占用的显存被平均分配到每个 GPU 中，显存消耗量与数据并行的并行度成线性反比关系，但通信量会有些许增加。

论文中给出了三个阶段的显存消耗分布情况：