分布式训练

[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO上篇文章【[论文品鉴] DeepSeek V3 最新论文之 DeepEP】介绍了分布式并行策略中的EP，简单的提到了其他几种并行策略，但碍于精力和篇幅限制决定将内容分几期，本期首先介绍DP，但并不是因为DP简单，相反DP的水也很深，例如：“DP到底同步的是什么数据？怎么同步的？“，“AllReduce/Ring-AllReduce是什么？”，“ZeRO1、2、3又都是什么？” 等各种问题，会结合PyTorch代码，尽量做到详细由浅入深。

torch.distributed.launch 、 torchrun 和 torch.distributed.run 无法与 nohup 兼容问题现象：使用nohup 启动torch的分布式训练后，由于ssh断开与服务器的连接，导致训练过程出错：

llamafactory使用8张昇腾910b算力卡lora微调训练qwen2-72b大模型我需要在昇腾服务器上对Qwen2-72B大模型进行lora微调，改变其自我认知。我的环境下是8张910B1卡。显存约512GB。

青松@FasterAI

【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题？【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题？重要性：★★零冗余优化器技术由 DeepSpeed 代码库提出，主要用于解决数据并行中的模型冗余问题，即每张 GPU 均需要复制一份模型参数。

分布式多机多卡训练全景指南：MPI、DeepSpeed 与 Colossal-AI 深度解析分布式多机多卡训练技术是深度学习领域提高训练效率和加快模型收敛的重要手段。以下是几个流行的框架和工具：

Pytorch分布式训练print()使用技巧在分布式训练场景中，有时我们可能会需要使用print函数（虽然大部分情况下大多会用logging进行信息输出）在终端打印相关信息。但由于同时运行多个进程，如果不进行限制，每个进程都会打印信息，不但影响观感，而且可能会造成阻塞。

【深度学习】使用硬件加速模型训练速度PyTorch 示例：dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)

PyTorch分布式数据加载学习 DistributedSampler[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler - 罗西的思考 - 博客园

爱喝白开水a

AI大语言模型之分布式训练概述随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练（Distributed Training）系统来解决海量的计算和内存资源需求问题。

LLM分布式预训练浅析随着深度学习的不断进步，语言模型的规模越来越大，参数量级已经达到了数千亿甚至数万亿，参数规模的指数增长带来了两个巨大的挑战

将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap

deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总问题1：deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案：【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error

大模型训练框架DeepSpeed使用入门(1): 训练设置官方文档直接抄过来，留个笔记。 https://deepspeed.readthedocs.io/en/latest/initialize.html

华为云开发者联盟

理论+实践，带你了解分布式训练本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练（Distributed Training）系统来解决海量的计算和内存资源要求问题。

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇在上一篇文章中，简单介绍了Pytorch分布式训练的一些基础原理和基本概念。简要回顾如下：1，DDP采用Ring-All-Reduce架构，其核心思想为：所有的GPU设备安排在一个逻辑环中，每个GPU应该有一个左邻和一个右邻，设备从它的左邻居接收数据，并将数据汇总后发送给右邻。通过N轮迭代以后，每个设备都拥有全局数据的计算结果。

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇随着深度学习技术的不断发展，模型的训练成本也越来越高。训练一个高效的通用模型，需要大量的训练数据和算力。在很多非大模型相关的常规任务上，往往也需要使用多卡来进行并行训练。在多卡训练中，最为常用的就是分布式数据并行（DistributedDataParallel, DDP）。但是现有的有关DDP的教程和博客比较少，内容也比较分散繁琐。在大多数情况下，我们只需要学会如何使用即可，不需要特别深入地了解原理。为此，写下这个系列博客，简明扼要地介绍一下DDP的使用，抛开繁杂的细节和原理，帮助快速上手使用（All i

LLM - 大语言模型的分布式训练概述欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://blog.csdn.net/caroline_wendy/article/details/136924304

分布式训练最小化部署docker swarm + docker-compose落地方案目录背景：前提条件：一、docker环境初始化配置1. 安装nvidia-docker22. 安装docker-compose工具

【分布式训练】基于Pytorch的分布式数据并行训练加速神经网络训练的最简单方法是使用GPU，它在神经网络中常见的计算类型（矩阵乘法和加法）上提供了比CPU更大的加速。随着模型或数据集变得越来越大，一个GPU很快就会变得不足。例如，像BERT和GPT-2这样的大型语言模型是在数百个GPU上训练的。要执行多GPU训练，我们必须有一种方法在不同的GPU之间分割模型和数据，并协调训练。