Pytorch分布式训练,其他GPU进程占用GPU0的原因

问题

最近跑师兄21年的论文代码,代码里使用了Pytorch分布式训练,在单机8卡的情况下,运行代码,出现如下问题。

也就是说GPU(1..7)上的进程占用了GPU0,这导致GPU0占的显存太多,以至于我的batchsize不能和原论文保持一致。

解决方法

我一点一点进行debug。

首先,在数据加载部分,由于没有将local_rankworld_size传入get_cifar_iter函数,导致后续使用DALI创建pipeline时使用了默认的local_rank=0,因此会在GPU0上多出该GPU下的进程

其次,在使用torch.load加载模型权重时,没有设置map_location,于是会默认加载到GPU0上,下图我选择将模型权重加载到cpu。虽然,这会使训练速度变慢,但为了和论文的batchsize保持一致也不得不这样做了。-.-

参考文献

  1. nn.parallel.DistributedDataParallel多卡训练,第一张卡会多出进程?
相关推荐
帮帮志8 分钟前
【AI大模型对话】流式输出和非流式输出的定义和区别
开发语言·人工智能·python·大模型·anaconda
jquerybootstrap14 分钟前
大地2000转经纬度坐标
linux·开发语言·python
Y***890838 分钟前
【JAVA进阶篇教学】第十二篇:Java中ReentrantReadWriteLock锁讲解
java·数据库·python
Aurora-silas1 小时前
Mac 本地运行 Hugging Face 大模型完全指南:PyTorch (MPS) vs Apple MLX
人工智能·pytorch·macos
DanB241 小时前
Java(多线程)
java·开发语言·python
战南诚1 小时前
Python函数式编程
开发语言·python
算法与编程之美1 小时前
Java数组动态扩容
java·开发语言·python·算法
weixin_462446231 小时前
【原创实践】python版playwright截取多个图
开发语言·python·策略模式
2301_764441332 小时前
三维建筑非法入侵情景推演
python·学习·算法
爱写代码的小朋友2 小时前
21天学通Python全栈开发实战指南
开发语言·python