deepspeed

[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO上篇文章【[论文品鉴] DeepSeek V3 最新论文之 DeepEP】介绍了分布式并行策略中的EP，简单的提到了其他几种并行策略，但碍于精力和篇幅限制决定将内容分几期，本期首先介绍DP，但并不是因为DP简单，相反DP的水也很深，例如：“DP到底同步的是什么数据？怎么同步的？“，“AllReduce/Ring-AllReduce是什么？”，“ZeRO1、2、3又都是什么？” 等各种问题，会结合PyTorch代码，尽量做到详细由浅入深。

【LLaMA-Factory】使用LoRa微调训练DeepSeek-R1-Distill-Qwen-7B如果不禁用开源驱动，直接安装nvidia-smi，会安装失败，在日志文件/var/log/nvidia-installer.log中会出现以下错误信息 ERROR: Unable to load the kernel module 'nvidia.ko'

分布式多机多卡训练全景指南：MPI、DeepSpeed 与 Colossal-AI 深度解析分布式多机多卡训练技术是深度学习领域提高训练效率和加快模型收敛的重要手段。以下是几个流行的框架和工具：

阿正的梦工坊

DeepSpeed 使用 LoRA 训练后文件结构详解在大语言模型（LLM）的训练过程中，DeepSpeed 提供了强大的分布式训练能力，而 LoRA（Low-Rank Adaptation）通过参数高效微调技术显著减少了资源占用。完成训练后，DeepSpeed 会输出一系列文件，这些文件包括模型权重、训练状态、优化器状态和其他相关配置文件。理解这些文件的用途对于后续模型加载、微调和推理非常重要。

LLaMA-Factory 单卡3080*2 deepspeed zero3 微调Qwen2.5-7B-Instruct笔者测试3080*2，1108条数据需要1个小时，bitch_size只能设为2，而且只能Zero3但是也可以微调Qwen2.5-7B-Instruct了

阿正的梦工坊

课程学习 (Curriculum Learning) 介绍及其在 DeepSpeed 框架中的应用：中英双语课程学习 (Curriculum Learning) 介绍及其在 DeepSpeed 框架中的应用课程学习（Curriculum Learning）是机器学习中的一种训练策略，灵感来源于人类学习的过程——从简单到复杂逐步掌握知识。具体来说，课程学习通过逐步引入训练数据中更难的样本，帮助模型在训练过程中更好地学习和泛化，从而提高模型的性能。

DeepSpeed：PyTorch优化库，使模型分布式训练能高效使用内存和更快速DeepSpeed是一个PyTorch优化库，它能让大模型的分布式训练更加节省内存和更快速。它的核心是ZeRO,ZeRO让大规模的训练大模型成为可能。ZeRO有以下几个工作状态：

windows安装deepspeed setup.py 207行找不到文件一直报莫名奇妙的错误，查了半天也没查到去看了一下源码，需要安装git，我没有安装git命令获得信息也没啥用

改进的拜耳法—木研

llama_factory Qlora微调异常 No package metadata was found for The ‘autoawq‘其实问题比较简单直接安装autoawq 即可但是对应会有版本问题：查看当前llama factory版本

Deepspeed : AttributeError: ‘DummyOptim‘ object has no attribute ‘step‘题意：尝试在一个名为 DummyOptim 的对象上调用 .step() 方法，但是这个对象并没有定义这个方法

deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总问题1：deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案：【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error

Hugging Face Accelerate 两个后端的故事：FSDP 与 DeepSpeed社区中有两个流行的零冗余优化器（Zero Redundancy Optimizer，ZeRO）算法实现，一个来自 DeepSpeed，另一个来自 PyTorch。Hugging Face Accelerate 对这两者都进行了集成并通过接口暴露出来，以供最终用户在训练/微调模型时自主选择其中之一。本文重点介绍了 Accelerate 对外暴露的这两个后端之间的差异。为了让用户能够在这两个后端之间无缝切换，我们在 Accelerate 中合并了一个精度相关的 PR 及一个新的概念指南。

大模型训练框架DeepSpeed使用入门(1): 训练设置官方文档直接抄过来，留个笔记。 https://deepspeed.readthedocs.io/en/latest/initialize.html

LLM - 大语言模型的分布式训练概述欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://blog.csdn.net/caroline_wendy/article/details/136924304

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed（环境没搞起来）模型训练代码，并对比不同方法的训练速度以及GPU内存的使用

京东云技术团队

DeepSpeed：大模型训练框架 | 京东云技术团队目前，大模型的发展已经非常火热，关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。

京东云技术团队

DeepSpeed：大模型训练框架目前，大模型的发展已经非常火热，关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。

我是有底线的