AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
只说证事3 分钟前
中专电商专业,哪些证书性价比高?
人工智能·数据挖掘
愣锤3 分钟前
详细易懂的OpenClaw安装指南
人工智能·openai·agent
麦芽糖02193 分钟前
AI大模型开发
人工智能
centurysee4 分钟前
为什么我开始关注 Skill AI 应用从“会聊天”走向“会干活”的关键一步
人工智能
大模型任我行7 分钟前
字节:早阶段视觉令牌剪枝EvoPrune
人工智能·计算机视觉·语言模型·论文笔记
码农小白AI7 分钟前
IACheck AI报告文档审核为新能源汽车高压安全检测报告审核提供支撑
人工智能·安全·汽车
nimadan128 分钟前
海螺口型同步2025解析,提升多设备协同效率的三大核心策略
人工智能·python
KIHU快狐8 分钟前
KIHU快狐|vr全景体验一体机高配置硬件带来更流畅操作体验
python
春日见9 分钟前
自动驾驶流派
大数据·人工智能·深度学习·elasticsearch·搜索引擎
SomeOtherTime10 分钟前
热运动基础(AI回答)
人工智能