技术栈
remote server
littletreee
1 年前
pytorch
·
python
·
gpu
·
deep learning
·
remote server
Pytorch分布式训练,其他GPU进程占用GPU0的原因
最近跑师兄21年的论文代码,代码里使用了Pytorch分布式训练,在单机8卡的情况下,运行代码,出现如下问题。 也就是说GPU(1..7)上的进程占用了GPU0,这导致GPU0占的显存太多,以至于我的batchsize不能和原论文保持一致。
littletreee
1 年前
python
·
deep learning
·
remote server
报错Intel MKL FATAL ERROR: Cannot load libmkl_core.so.的一种解决方法
今天上80服务器跑mdistiller的代码时,意外发现torch、numpy都不能用了T_T以torch为例,出现如下报错情况 以numpy为例,出现如下报错情况