AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
愚公搬代码20 小时前
【愚公系列】《剪映+DeepSeek+即梦:短视频制作》055-即梦+DeepSeek生成AI视频(文生视频案例)
人工智能·音视频
茶靡花开041520 小时前
什么是DMS经销商管理系统?经销商管理系统哪个好?
大数据·人工智能
xinxiangwangzhi_20 小时前
raft系列总结
人工智能·计算机视觉
花千树-01020 小时前
IndexTTS2 推理性能分析
人工智能·深度学习·ai·语音识别·tts
tech讯息20 小时前
模数OPC社区在北京亦庄正式启航
人工智能·全文检索
IT观测20 小时前
# 聚焦AI数据分析市场:2026年AI数据分析市场的深度调研与趋势展望报告
人工智能·数据挖掘·数据分析
深兰科技20 小时前
俄罗斯机器人与教育机构接连来访深兰科技,加速具身智能与AI合作
人工智能·机器人·具身智能·深兰科技
Gofarlic_OMS20 小时前
HyperWorks用户仿真行为分析与许可证资源分点配置
java·大数据·运维·服务器·人工智能
熊文豪20 小时前
蓝耘 MaaS 平台接入 Zed 编辑器完整配置指南
人工智能
V搜xhliang024620 小时前
人工智能在医学教育中的革新潜力与挑战
人工智能