AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
冬奇Lab3 分钟前
一天一个开源项目(第60篇):IndexTTS - B 站开源的工业级零样本语音合成系统
人工智能·开源·资讯
子兮曰15 分钟前
🚀Hermes Agent 爆火真相:19k Star 背后的自学习 Agent 系统
人工智能·agent
AI先驱体验官39 分钟前
智能体变现:从技术实现到产品化的实践路径
大数据·人工智能·深度学习·重构·aigc
大连好光景1 小时前
软件测试笔记(2)
人工智能·功能测试·模块测试
纪伊路上盛名在1 小时前
机器学习中的固定随机种子方案
人工智能·机器学习·数据分析·随机种子
SteveSenna1 小时前
项目:Trossen Arm MuJoCo
人工智能·学习·算法
兢谨网安1 小时前
AI安全:从技术加固到体系化防御的实战演进
人工智能·安全·网络安全·渗透测试
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-03-29)
人工智能·ai·大模型·github·ai教程
龙腾AI白云1 小时前
什么是AI智能体(AI Agent)
人工智能·深度学习·自然语言处理·数据分析
Sagittarius_A*1 小时前
监督学习(Supervised Learning)
人工智能·学习·机器学习·监督学习