fsdp

kuokay10 天前
分布式·llama·deepspeed·fsdp·llama-factory·accelerate
深入理解 LLM 分布式训练全栈:从硬件到 LLaMA-Factory大语言模型的训练是一项复杂的系统工程。从底层的芯片指令,到上层的训练框架,每一层都承担着独特的职责,彼此协作才能完成数百亿参数模型的高效训练。本文将自底向上逐层拆解这套技术栈,并配合实际示例帮助你真正理解每一层的设计意图与工作机制。
这是谁的博客?14 天前
分布式·ai·大模型·分布式训练·deepspeed·fsdp·zero
大模型分布式训练技术深度解析:从 ZeRO 到 3D 并行的全面指南本文深入剖析大模型分布式训练的核心技术体系,涵盖 ZeRO 内存优化三阶段原理、数据并行/张量并行/流水线并行的 3D 组合策略、DeepSpeed 与 FSDP 框架实现细节,以及 CPU/NVMe Offload 扩展技术。通过源码级分析揭示分布式训练的设计思想与通信优化机制,帮助开发者掌握训练百亿参数模型的关键技术。
Yeliang Wu6 个月前
fsdp·llamafactory
基于FSDP的LLaMA-Factory大模型高效训练指南作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory结合FSDP(Fully Sharded Data Parallel,全分片数据并行)是当前训练大规模语言模型的一项重要技术。下面我将为你梳理其核心原理、关键配置、完整流程以及它与其他方案的对比。
IT Panda1 年前
pytorch·分布式训练·dp·deepspeed·ddp·fsdp·zero
[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO上篇文章【[论文品鉴] DeepSeek V3 最新论文 之 DeepEP】 介绍了分布式并行策略中的EP,简单的提到了其他几种并行策略,但碍于精力和篇幅限制决定将内容分几期,本期首先介绍DP,但并不是因为DP简单,相反DP的水也很深,例如:“DP到底同步的是什么数据?怎么同步的?“,“AllReduce/Ring-AllReduce是什么?”,“ZeRO1、2、3又都是什么?” 等各种问题,会结合PyTorch代码,尽量做到详细由浅入深。
闻道且行之1 年前
人工智能·语言模型·llama·qlora·fsdp
LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。 对过程不感兴趣的兄弟们可以直接从第3节开始看。
胖胖大海3 年前
pytorch·dp·deepspeed·ddp·fsdp
pytorch单精度、半精度、混合精度、单卡、多卡(DP / DDP)、FSDP、DeepSpeed模型训练pytorch单精度、半精度、混合精度、单卡、多卡(DP / DDP)、FSDP、DeepSpeed(环境没搞起来)模型训练代码,并对比不同方法的训练速度以及GPU内存的使用
我是有底线的