AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
这张生成的图像能检测吗1 分钟前
(论文速读)基于YCrCb-MST高光谱重建的太阳镜片颜色分类系统
人工智能·深度学习·计算机视觉·图像分类·高光谱
刘立军3 分钟前
程序员应该熟悉的概念(4)MCP能做什么
人工智能·mcp
song150265372984 分钟前
视觉检测设备的生产及应用软件开发
人工智能·计算机视觉·视觉检测
秋刀鱼 ..5 分钟前
2026拓展现实、人机交互与人工智能国际研讨会(XRHCIAI 2026)
运维·人工智能·科技·机器学习·人机交互·制造
视觉&物联智能8 分钟前
【杂谈】-RL即服务:解锁新一轮自主浪潮
人工智能·ai·chatgpt·aigc·强化学习·agi·deepseek
2401_8414956410 分钟前
【LeetCode刷题】跳跃游戏
数据结构·python·算法·leetcode·游戏·贪心算法·数组
老马啸西风12 分钟前
成熟企业级技术平台 MVE-010-permission 平台
人工智能·深度学习·职场和发展
极客BIM工作室21 分钟前
AI导读AI论文: WAN: OPEN AND ADVANCED LARGE-SCALE VIDEO GENERATIVE MODELS
人工智能
默 语24 分钟前
Spring-AI vs LangChain4J:Java生态的AI框架选型指南
java·人工智能·spring·ai·langchain·langchain4j·spring-ai
说私域24 分钟前
开源AI智能名片链动2+1模式商城小程序下短视频电商变现与广告变现的对比研究
人工智能·小程序