技术栈

zero

IT Panda
16 天前
pytorch·分布式训练·dp·deepspeed·ddp·fsdp·zero
[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO上篇文章【[论文品鉴] DeepSeek V3 最新论文 之 DeepEP】 介绍了分布式并行策略中的EP,简单的提到了其他几种并行策略,但碍于精力和篇幅限制决定将内容分几期,本期首先介绍DP,但并不是因为DP简单,相反DP的水也很深,例如:“DP到底同步的是什么数据?怎么同步的?“,“AllReduce/Ring-AllReduce是什么?”,“ZeRO1、2、3又都是什么?” 等各种问题,会结合PyTorch代码,尽量做到详细由浅入深。
若石之上
8 个月前
pytorch·内存·gpu·deepspeed·速度·zero
DeepSpeed:PyTorch优化库,使模型分布式训练能高效使用内存和更快速DeepSpeed是一个PyTorch优化库,它能让大模型的分布式训练更加节省内存和更快速。它的核心是ZeRO,ZeRO让大规模的训练大模型成为可能。ZeRO有以下几个工作状态:
愤怒的可乐
1 年前
论文阅读·zero
[论文笔记]ZeRO: Memory Optimizations Toward Training Trillion Parameter Models今天带来ZeRO: Memory Optimizations Toward Training Trillion Parameter Models的论文笔记。