fsdp

[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO上篇文章【[论文品鉴] DeepSeek V3 最新论文之 DeepEP】介绍了分布式并行策略中的EP，简单的提到了其他几种并行策略，但碍于精力和篇幅限制决定将内容分几期，本期首先介绍DP，但并不是因为DP简单，相反DP的水也很深，例如：“DP到底同步的是什么数据？怎么同步的？“，“AllReduce/Ring-AllReduce是什么？”，“ZeRO1、2、3又都是什么？” 等各种问题，会结合PyTorch代码，尽量做到详细由浅入深。

闻道且行之

LLaMA-Factory|微调大语言模型初探索(4)，64G显存微调13b模型上篇文章记录了使用lora微调deepseek-7b，微调成功，但是微调llama3-8b显存爆炸，这次尝试使用qlora微调HQQ方式量化，微调更大参数体量的大语言模型，记录下来微调过程，仅供参考。对过程不感兴趣的兄弟们可以直接从第3节开始看。

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed（环境没搞起来）模型训练代码，并对比不同方法的训练速度以及GPU内存的使用

我是有底线的