Pytorch分布式训练,其他GPU进程占用GPU0的原因

问题

最近跑师兄21年的论文代码,代码里使用了Pytorch分布式训练,在单机8卡的情况下,运行代码,出现如下问题。

也就是说GPU(1..7)上的进程占用了GPU0,这导致GPU0占的显存太多,以至于我的batchsize不能和原论文保持一致。

解决方法

我一点一点进行debug。

首先,在数据加载部分,由于没有将local_rankworld_size传入get_cifar_iter函数,导致后续使用DALI创建pipeline时使用了默认的local_rank=0,因此会在GPU0上多出该GPU下的进程

其次,在使用torch.load加载模型权重时,没有设置map_location,于是会默认加载到GPU0上,下图我选择将模型权重加载到cpu。虽然,这会使训练速度变慢,但为了和论文的batchsize保持一致也不得不这样做了。-.-

参考文献

  1. nn.parallel.DistributedDataParallel多卡训练,第一张卡会多出进程?
相关推荐
路边草随风22 分钟前
milvus向量数据库使用尝试
人工智能·python·milvus
newobut40 分钟前
vscode远程调试python程序,基于debugpy库
vscode·python·调试·debugpy
APIshop1 小时前
用 Python 把“API 接口”当数据源——从找口子到落库的全流程实战
开发语言·python
Mr.Lee jack1 小时前
【torch.compile】LazyTensor延迟执行机制
pytorch
一点晖光2 小时前
Docker 作图咒语生成器搭建指南
python·docker
smj2302_796826522 小时前
解决leetcode第3768题.固定长度子数组中的最小逆序对数目
python·算法·leetcode
木头左2 小时前
位置编码增强法在量化交易策略中的应用基于短期记忆敏感度提升
python
Acc1oFl4g2 小时前
详解Java反射
java·开发语言·python
Mr.Lee jack2 小时前
【torch.compile】TorchDynamo动态图编译
pytorch
ney187819024744 小时前
分类网络LeNet + FashionMNIST 准确率92.9%
python·深度学习·分类