大模型分布式训练 - 大模型分布式训练技术,学习,经验文章

缘友一世

6 个月前

DeepSpeed框架详解：ZeRO 显存优化、3D 并行及混合精度训练DeepSpeed 的强大功能使其在大模型领域得到了广泛应用：在传统的分布式数据并行中，每个GPU都会维护一份完整的模型参数、梯度和优化器状态，这造成了巨大的显存冗余。