技术栈
分布式训练
藓类少女
8 天前
人工智能
·
深度学习
·
分布式训练
·
gpu
【深度学习】使用硬件加速模型训练速度
PyTorch 示例:dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)
m0_60857098
1 个月前
分布式训练
·
数据加载
PyTorch分布式数据加载学习 DistributedSampler
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler - 罗西的思考 - 博客园
爱喝白开水a
3 个月前
人工智能
·
llm
·
分布式训练
·
embedding
·
ai大模型
·
计算机技术
·
大模型训练
AI大语言模型之分布式训练概述
随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练(Distributed Training)系统来解决海量的计算和内存资源需求问题。
AI_小站
3 个月前
人工智能
·
llm
·
分布式训练
·
大语言模型
·
agent
·
计算机技术
·
大模型应用
LLM分布式预训练浅析
随着深度学习的不断进步,语言模型的规模越来越大,参数量级已经达到了数千亿甚至数万亿,参数规模的指数增长带来了两个巨大的挑战
Hi20240217
5 个月前
pytorch
·
python
·
性能优化
·
分布式训练
·
nccl
·
融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
XMoyas
5 个月前
docker
·
大模型
·
分布式训练
·
deepspeed
·
多机多卡
deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总
问题1:deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案:【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error
hjxu2016
6 个月前
大模型
·
分布式训练
·
deepspeed
大模型训练框架DeepSpeed使用入门(1): 训练设置
官方文档直接抄过来,留个笔记。 https://deepspeed.readthedocs.io/en/latest/initialize.html
华为云开发者联盟
6 个月前
机器学习
·
分布式训练
·
大语言模型
·
华为云开发者联盟
理论+实践,带你了解分布式训练
本文分享自华为云社区《大模型LLM之分布式训练》,作者: 码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练(Distributed Training)系统来解决海量的计算和内存资源要求问题。
李一二
7 个月前
分布式训练
·
ddp
Pytorch DistributedDataParallel(DDP)教程二:快速入门实践篇
在上一篇文章中,简单介绍了Pytorch分布式训练的一些基础原理和基本概念。简要回顾如下:1,DDP采用Ring-All-Reduce架构,其核心思想为:所有的GPU设备安排在一个逻辑环中,每个GPU应该有一个左邻和一个右邻,设备从它的左邻居接收数据,并将数据汇总后发送给右邻。通过N轮迭代以后,每个设备都拥有全局数据的计算结果。
李一二
7 个月前
分布式训练
·
ddp
Pytorch DistributedDataParallel(DDP)教程一:快速入门理论篇
随着深度学习技术的不断发展,模型的训练成本也越来越高。训练一个高效的通用模型,需要大量的训练数据和算力。在很多非大模型相关的常规任务上,往往也需要使用多卡来进行并行训练。在多卡训练中,最为常用的就是分布式数据并行(DistributedDataParallel, DDP)。但是现有的有关DDP的教程和博客比较少,内容也比较分散繁琐。在大多数情况下,我们只需要学会如何使用即可,不需要特别深入地了解原理。为此,写下这个系列博客,简明扼要地介绍一下DDP的使用,抛开繁杂的细节和原理,帮助快速上手使用(All i
SpikeKing
8 个月前
人工智能
·
分布式训练
·
大语言模型
·
并行策略
·
deepspeed
·
集群架构
LLM - 大语言模型的分布式训练 概述
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/136924304
Cloud孙文波
1 年前
docker
·
分布式训练
·
swarm
分布式训练 最小化部署docker swarm + docker-compose落地方案
目录背景:前提条件:一、docker环境初始化配置1. 安装nvidia-docker22. 安装docker-compose工具
镰刀韭菜
1 年前
pytorch
·
分布式训练
·
distributed
·
apex
·
混合精度训练
·
分布式机器学习
·
horovod
【分布式训练】基于Pytorch的分布式数据并行训练
加速神经网络训练的最简单方法是使用GPU,它在神经网络中常见的计算类型(矩阵乘法和加法)上提供了比CPU更大的加速。随着模型或数据集变得越来越大,一个GPU很快就会变得不足。例如,像BERT和GPT-2这样的大型语言模型是在数百个GPU上训练的。要执行多GPU训练,我们必须有一种方法在不同的GPU之间分割模型和数据,并协调训练。