技术栈
大模型分布式训练
缘友一世
3 小时前
llm
·
模型微调
·
模型训练
·
大模型分布式训练
DeepSpeed框架详解:ZeRO 显存优化、3D 并行及混合精度训练
DeepSpeed 的强大功能使其在大模型领域得到了广泛应用:在传统的分布式数据并行中,每个GPU都会维护一份完整的模型参数、梯度和优化器状态,这造成了巨大的显存冗余。
我是有底线的