技术栈
zero
若石之上
1 个月前
pytorch
·
内存
·
gpu
·
deepspeed
·
速度
·
zero
DeepSpeed:PyTorch优化库,使模型分布式训练能高效使用内存和更快速
DeepSpeed是一个PyTorch优化库,它能让大模型的分布式训练更加节省内存和更快速。它的核心是ZeRO,ZeRO让大规模的训练大模型成为可能。ZeRO有以下几个工作状态:
愤怒的可乐
4 个月前
论文阅读
·
zero
[论文笔记]ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
今天带来ZeRO: Memory Optimizations Toward Training Trillion Parameter Models的论文笔记。