AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
愚公搬代码几秒前
【愚公系列】《剪映+DeepSeek+即梦:短视频制作》005-初识剪映:快速打开短视频制作的大门(AI创作初体验:零门槛生成第一条视频)
人工智能
小鸡吃米…1 分钟前
调试线程应用程序
开发语言·python
灵机一物2 分钟前
灵机一物AI智能电商小程序(已上线)-用 AI Agent 替代真人客服做砍价:一套 LLM + 规则混合驱动的智能议价产品方案
人工智能
2301_764441332 分钟前
MiroFish:多智能体技术的开源AI推演预测引擎
人工智能·深度学习·语言模型·自然语言处理·数据挖掘·数据分析·开源
新缸中之脑3 分钟前
Nano Banana 终极提示指南
人工智能·计算机视觉
MasonYyp4 分钟前
简单使用代码沙箱技术
python
卢锡荣4 分钟前
LDR6500|超小封装 Type‑C DRP PD 控制芯片:边充边传,一芯极简,全能适配
开发语言·网络·人工智能·计算机外设·电脑
信道者4 分钟前
中国收紧AI“缰绳”:OpenClaw遭银行及政府机构限制使用
人工智能
梨落秋霜8 分钟前
Python入门篇【连接数据库】
数据库·python·oracle
格林威8 分钟前
工业相机图像高速存储(C#版):直接IO存储方法,附海康相机C#实战代码!
开发语言·人工智能·数码相机·c#·工业相机·海康相机·堡盟相机