技术栈
分布式训练
IT老兵2025
2 天前
人工智能
·
pytorch
·
python
·
分布式训练
·
ddp
PyTorch DDP多GPU训练实践问题总结
PyTorch 是目前全球最受欢迎的开源深度学习框架之一,由 Meta(原 Facebook)的人工智能研究团队(FAIR)于 2016 年推出。PyTorch 最显著的特点是采用动态计算图(Dynamic Computation Graph),凭借灵活的设计和直观的 Python 风格语法,已经成为学术研究和工业界开发的主流选择,是 NeurIPS 等顶级会议论文复现的首选。
Yeliang Wu
13 天前
微调
·
分布式训练
·
量化
·
llamafactory
LLaMA-Factory 训练方法原理及实践(Ubuntu 22.04)
作者:吴业亮 博客:wuyeliang.blog.csdn.netLLaMA-Factory 是一款轻量级、模块化的大语言模型(LLM)训练/微调框架,支持 LLaMA、Qwen、Baichuan 等主流模型,覆盖从预训练到对齐微调的全流程(Pre-training、SFT、RLHF、DPO、KTO 等)。本文将从原理和Ubuntu 22.04 实操两方面,系统讲解各训练阶段的核心逻辑与落地步骤。
Yeliang Wu
13 天前
大模型
·
微调
·
分布式训练
·
llamafactory
·
调优算法
LLaMA-Factory 分布式训练实践
作者:吴业亮 博客:wuyeliang.blog.csdn.net无需额外配置文件,通过 torchrun 启动即可,LLaMA-Factory 会自动适配 DDP。
Yeliang Wu
13 天前
大模型
·
微调
·
分布式训练
·
llamafactory
·
调优算法
从原理到部署:LLaMA Factory 量化实战(Ubuntu 22.04)——PTQ/GPTQ/AWQ 等 9 种方法
作者:吴业亮 博客:wuyeliang.blog.csdn.net本文系统讲解LLaMA Factory中主流量化方法的核心原理,并基于Ubuntu 22.04环境完成PTQ/GPTQ/AWQ等9种量化方案的实操落地,涵盖环境搭建、命令行实现、关键参数调优,适配LLaMA/LLaMA2/LLaMA3等主流模型。
Yeliang Wu
13 天前
微调
·
分布式训练
·
llamafactory
·
调优算法
LLaMA-Factory 加速技术全解析:FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南
作者:吴业亮 博客:wuyeliang.blog.csdn.net传统Transformer注意力计算存在严重的内存访存瓶颈:需要显式存储注意力权重矩阵(O(n²)),且HBM(高带宽内存)读写速度远低于计算单元速度。 FlashAttention通过两大核心优化解决该问题:
Xxtaoaooo
2 个月前
人工智能
·
架构
·
分布式训练
·
多模态
·
模型优化
原生多模态AI架构:统一训练与跨模态推理的系统实现与性能优化
人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
爱分享的飘哥
4 个月前
人工智能
·
pytorch
·
分布式训练
·
lightning
·
accelerate
·
训练框架
·
trainer
第七十章:告别“手写循环”噩梦!Trainer结构搭建:PyTorch Lightning让你“一键炼丹”!
开场白:还在手写训练循环?拜托,都2025年了! 嘿,各位深度学习的“老铁”们!你是不是也经历过这样的“炼丹”苦日子:
IT Panda
6 个月前
pytorch
·
分布式训练
·
dp
·
deepspeed
·
ddp
·
fsdp
·
zero
[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO
上篇文章【[论文品鉴] DeepSeek V3 最新论文 之 DeepEP】 介绍了分布式并行策略中的EP,简单的提到了其他几种并行策略,但碍于精力和篇幅限制决定将内容分几期,本期首先介绍DP,但并不是因为DP简单,相反DP的水也很深,例如:“DP到底同步的是什么数据?怎么同步的?“,“AllReduce/Ring-AllReduce是什么?”,“ZeRO1、2、3又都是什么?” 等各种问题,会结合PyTorch代码,尽量做到详细由浅入深。
leo0308
7 个月前
人工智能
·
pytorch
·
python
·
深度学习
·
分布式训练
torch.distributed.launch 、 torchrun 和 torch.distributed.run 无法与 nohup 兼容
问题现象:使用nohup 启动torch的分布式训练后, 由于ssh断开与服务器的连接, 导致训练过程出错:
yuanlulu
1 年前
lora
·
llm
·
transformer
·
分布式训练
·
大语言模型
·
huggingface
·
多卡训练
llamafactory使用8张昇腾910b算力卡lora微调训练qwen2-72b大模型
我需要在昇腾服务器上对Qwen2-72B大模型进行lora微调,改变其自我认知。 我的环境下是8张910B1卡。显存约512GB。
青松@FasterAI
1 年前
人工智能
·
深度学习
·
自然语言处理
·
分布式训练
·
nlp面试
【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题?
【NLP高频面题 - 分布式训练篇】ZeRO主要为了解决什么问题?重要性:★★零冗余优化器技术由 DeepSpeed 代码库提出,主要用于解决数据并行中的模型冗余问题,即每张 GPU 均需要复制一份模型参数。
gs80140
1 年前
分布式训练
·
deepspeed
·
多机多卡
·
深度学习优化
·
colossal-ai
分布式多机多卡训练全景指南:MPI、DeepSpeed 与 Colossal-AI 深度解析
分布式多机多卡训练技术是深度学习领域提高训练效率和加快模型收敛的重要手段。以下是几个流行的框架和工具:
闰土_RUNTU
1 年前
人工智能
·
pytorch
·
python
·
分布式训练
·
训练技巧
Pytorch分布式训练print()使用技巧
在分布式训练场景中,有时我们可能会需要使用print函数(虽然大部分情况下大多会用logging进行信息输出)在终端打印相关信息。但由于同时运行多个进程,如果不进行限制,每个进程都会打印信息,不但影响观感,而且可能会造成阻塞。
藓类少女
1 年前
人工智能
·
深度学习
·
分布式训练
·
gpu
【深度学习】使用硬件加速模型训练速度
PyTorch 示例:dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)
m0_60857098
1 年前
分布式训练
·
数据加载
PyTorch分布式数据加载学习 DistributedSampler
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler - 罗西的思考 - 博客园
爱喝白开水a
1 年前
人工智能
·
llm
·
分布式训练
·
embedding
·
ai大模型
·
计算机技术
·
大模型训练
AI大语言模型之分布式训练概述
随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练(Distributed Training)系统来解决海量的计算和内存资源需求问题。
AI_小站
1 年前
人工智能
·
llm
·
分布式训练
·
大语言模型
·
agent
·
计算机技术
·
大模型应用
LLM分布式预训练浅析
随着深度学习的不断进步,语言模型的规模越来越大,参数量级已经达到了数千亿甚至数万亿,参数规模的指数增长带来了两个巨大的挑战
Hi20240217
1 年前
pytorch
·
python
·
性能优化
·
分布式训练
·
nccl
·
融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
XMoyas
1 年前
docker
·
大模型
·
分布式训练
·
deepspeed
·
多机多卡
deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总
问题1:deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案:【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error
hjxu2016
2 年前
大模型
·
分布式训练
·
deepspeed
大模型训练框架DeepSpeed使用入门(1): 训练设置
官方文档直接抄过来,留个笔记。 https://deepspeed.readthedocs.io/en/latest/initialize.html