AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
2401_833033629 小时前
如何用 CSS 变量配合 JS setProperty 实现动态换肤功能
jvm·数据库·python
threelab9 小时前
挑战AI辅助从零构建3D模型编辑器:01基于Vue3 + Three.js的现代化架构设计
javascript·人工智能·3d·前端框架·着色器
2401_898717669 小时前
CSS实现自定义滚动条的定位悬浮_利用fixed定位与伪类
jvm·数据库·python
才兄说9 小时前
机器人二次开发机器狗巡检?自动返充避障
python
TDengine (老段)9 小时前
TDengine TSDB 整体构架
大数据·数据库·人工智能·物联网·时序数据库·tdengine·涛思数据
piglet121389 小时前
# 自己写了一个 Claude.ai Agent 前端之后,对 Agent 的一些想法
人工智能
m0_7485548110 小时前
如何在 Discord.py 中限制按钮仅由特定角色用户点击
jvm·数据库·python
尘埃落定wf10 小时前
Python 数据库迁移:Alembic 太重?自己动手搭一套轻量版
数据库·python·mysql
Jetev10 小时前
Golang怎么用embed嵌入配置文件_Golang如何将默认配置文件打包进二进制程序【技巧】
jvm·数据库·python
2301_7873124310 小时前
golang如何实现Apple Pay集成_golang Apple Pay集成实现教程
jvm·数据库·python