AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
蜘蛛小助理3 小时前
从一张表到一套系统:AI自动生成跨表关联与自动化工作流
人工智能·ai·多维表·多维表格·蜘蛛表格
X54先生(人文科技)3 小时前
X54先生与陈晓岚弹硅协同开发经验分享
人工智能·开源·零知识证明
团象科技3 小时前
跨境业务运维压力攀升,云原生运维补齐 AI 出海底层支撑短板
运维·人工智能·云原生
不会编程的懒洋洋3 小时前
VisionPro 中 直方图 CogHistogramTool
图像处理·人工智能·笔记·计算机视觉·机器视觉·visionpro·康耐视
郝学胜-神的一滴3 小时前
干货版《算法导论》04:渐近复杂度与序列接口实战
java·开发语言·数据结构·c++·python·算法
神明9313 小时前
CSS 背景图滑动切换:纯 CSS 实现右进左出轮播效果
jvm·数据库·python
HillVue3 小时前
李彦宏提出 AI 时代进化论,DAA 开启价值新周期
人工智能·oracle·sqlite
lihaihui19913 小时前
MCP探究
人工智能
志栋智能3 小时前
超自动化运维:提升业务连续性的关键引擎
运维·服务器·网络·人工智能·自动化
AI科技星3 小时前
数理原本·卷零:信息本源与震动论
人工智能·线性代数·架构·概率论·学习方法·量子计算