AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
AI技术增长几秒前
Pytorch图像去噪实战(三):ResUNet图像去噪模型实战,解决UNet深层训练不稳定问题
人工智能·pytorch·深度学习
夏恪几秒前
如何计算SQL同比环比数据_利用窗口函数LAG与LEAD
jvm·数据库·python
念恒123063 分钟前
Python(运算与操作)
python·学习
TDengine (老段)6 分钟前
工业软件的未来:构建在工业数据底座之上的 AI Agent
大数据·数据库·人工智能·时序数据库·tdengine
qq_349317486 分钟前
Tailwind CSS如何自定义间距数值_配置theme spacing扩展CSS边距
jvm·数据库·python
aLTttY6 分钟前
Spring Boot集成AI大模型实战:从0到1打造智能应用
人工智能·spring boot·后端
FlyIer5568 分钟前
2026 个人网站建站软件实测
人工智能
Yuer20259 分钟前
Case-X01豆包意图识别能力压力测试
人工智能·edca os
木枷10 分钟前
SuffixDecoding: Extreme Speculative Decoding forEmerging AI Applications
人工智能
qq_白羊座11 分钟前
提示词工程|大语言模型核心参数设置(含数值范围+适用场景)
人工智能