AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
2501_911067668 小时前
光能筑底,智联全城——叁仟智慧太阳能路灯杆重构城市基础设施新生态
大数据·人工智能·重构
OpenCSG8 小时前
AgenticOps x CSGHub:智能体时代的工程化革命,让企业 AI 落地可控可规模化
人工智能
hrrrrb8 小时前
【算法设计与分析】随机化算法
人工智能·python·算法
D___H8 小时前
Part10_编写自己的解释器
python
Zero_to_zero12348 小时前
Claude code系列(一):claude安装、入门及基础操作指令
人工智能·python
szcsun58 小时前
机器学习(二)-线性回归实战
人工智能·机器学习·线性回归
Yeats_Liao8 小时前
异步推理架构:CPU-NPU流水线设计与并发效率提升
python·深度学习·神经网络·架构·开源
普通网友8 小时前
Android16 adb投屏工具Scrcpy介绍。
人工智能
搬砖者(视觉算法工程师)8 小时前
语义分割:基于 TensorFlow 对 FCN 与迁移学习的探究
人工智能