AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
这张生成的图像能检测吗几秒前
(论文速读)TSSA:令牌统计自注意力机制
人工智能·机器学习·注意力机制·长序列建模·视觉分类
aisifang002 分钟前
GPT-Image2:高保真视频生成新突破
人工智能·深度学习
小何code4 分钟前
人工智能【第30篇】AI学习路径总结与职业规划指南
人工智能·大模型·职业规划·ai学习路径
aisifang007 分钟前
GPT-Image2去偏见技术新突破
人工智能·算法·机器学习
Pocker_Spades_A13 分钟前
Python快速入门专业版(五十八)——正则表达式(re):爬虫文本提取利器(从语法到实战)
爬虫·python·正则表达式
还是鼠鼠16 分钟前
AI掘金头条新闻系统 (Toutiao News)-获取新闻分类
后端·python·mysql·fastapi·web
Tutankaaa22 分钟前
知识竞赛代表队分组方法详解
人工智能·经验分享
沫儿笙25 分钟前
弧焊机器人混合气节气设备
人工智能·物联网·机器人
迪霸LZTXDY32 分钟前
U-Net 训练光纤识别
人工智能·深度学习·计算机视觉
轻口味33 分钟前
HarmonyOS 6.1 全栈实战录 - 13 流量增长新引擎:全场景归因与 App Linking 链接深度开发实战
pytorch·深度学习·harmonyos