AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
甲维斯6 分钟前
Claude Code的六种种授权模式!安全和效率控制
人工智能·ai编程
curd_boy15 分钟前
【AI】生产级 Graph RAG 落地架构
人工智能·架构
夏天想19 分钟前
人类将从“执行者“变为“总导演”,学习Ai知识
人工智能·学习
yangshicong21 分钟前
第11章:结构化输出与数据提取 —— 让 AI 直接返回你想要的数据格式
数据库·人工智能·redis·python·langchain·ai编程
@PHARAOH24 分钟前
WHAT - AI 领域的 hermes 和 harnes
人工智能
kevin 125 分钟前
财务报销智能审核怎么落地?DocFlux 智能分类抽取,全过程溯源
人工智能·ocr
言之。33 分钟前
【Python】免费的中文 AI 配音方案
开发语言·人工智能·python
zhangxingchao35 分钟前
AI应用开发七:可以替代 RAG 的技术
前端·人工智能·后端
Warson_L35 分钟前
python dict key详解
python