AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
寻道码路2 分钟前
LangChain4j Java AI 应用开发实战(二十六):多模型集成策略 —— OpenAI、DeepSeek、阿里百炼混合使用
java·开发语言·人工智能·ai
直接冲冲冲6 分钟前
65-批量归一化
人工智能·深度学习·计算机视觉
树獭非懒7 分钟前
六、Plan-and-Solve智能体:学会三思而后行
人工智能·llm·agent
武子康9 分钟前
调查研究-214 OpenAI:Agent 不是更聪明的聊天框,而是新的工作组织方式
人工智能·openai·agent
火山引擎开发者社区9 分钟前
告别手动翻资料:用 Agent Plan 搞定销售档案与问答
人工智能
鹰影4710 分钟前
一款AI笔记助手和远程同步的markdown笔记idea-note
人工智能·笔记·rust·typescript·react
城事漫游Molly15 分钟前
如何写出有说服力的研究论文Introduction——论证框架切入法
人工智能·论文写作·ai for science·博士生必读
行业研究员16 分钟前
解决方案 | 腾讯云天御金融反电诈解决方案
人工智能·金融·腾讯云·金融反电诈·双模反诈
倔强的石头10616 分钟前
让时间序列“开口说话”:TimechoAI 如何把工业数据变成安全可靠的智能洞察
人工智能
蓝速科技17 分钟前
蓝速科技视觉 3D 全息舱 AI 数字人一体机带灯与无灯款深度评测
人工智能·科技·3d