AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
东离与糖宝6 分钟前
零基础Java学生面试通关手册:项目+算法+框架一次搞定
java·人工智能·面试
轻造科技6 分钟前
生产异常知识库+案例库:同类问题快速查解决方案,处理时间缩短60%
大数据·人工智能
ZhengEnCi9 分钟前
M2-如何转换为PDF
python
带娃的IT创业者11 分钟前
AI 时代产品经理能取代程序员吗?一人全栈背后的残酷真相
人工智能·ai·程序员·产品经理·全栈·职业焦虑
wwj202418 分钟前
2026年招聘管理系统TOP6榜单发布
人工智能
心勤则明19 分钟前
使用SpringAIAlibaba给上下文“瘦身”
java·人工智能·spring
gCode Teacher 格码致知22 分钟前
Javascript及Python提高:将对象的键值对转换为数组元素的方式以及两种语言的对比-由Deepseek产生
javascript·python
浔川python社26 分钟前
《C++ 小程序编写系列》(合集)
python
阿钱真强道30 分钟前
37 Python 时序和文本:词袋模型 BoW 和 TF-IDF 到底怎么理解?
python·nlp·tf-idf·文本向量化·词袋模型·bow
2401_873544921 小时前
使用Fabric自动化你的部署流程
jvm·数据库·python