AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
虚假程序设计几秒前
python用 PythonNet 从 Python 调用 WPF 类库 UI 用XAML
python·ui·wpf
胡桃不是夹子38 分钟前
CPU安装pytorch(别点进来)
人工智能·pytorch·python
Fansv58744 分钟前
深度学习-6.用于计算机视觉的深度学习
人工智能·深度学习·计算机视觉
xjxijd1 小时前
AI 为金融领域带来了什么突破?
人工智能·其他
SKYDROID云卓小助手1 小时前
无人设备遥控器之如何分享数传篇
网络·人工智能·算法·计算机视觉·电脑
deephub1 小时前
LLM高效推理:KV缓存与分页注意力机制深度解析
人工智能·深度学习·语言模型
奋斗的袍子0072 小时前
Spring AI + Ollama 实现调用DeepSeek-R1模型API
人工智能·spring boot·深度学习·spring·springai·deepseek
青衫弦语2 小时前
【论文精读】VLM-AD:通过视觉-语言模型监督实现端到端自动驾驶
人工智能·深度学习·语言模型·自然语言处理·自动驾驶
没枕头我咋睡觉2 小时前
【大语言模型_4】源码编译vllm框架cpu版
人工智能·语言模型·自然语言处理
视觉语言导航2 小时前
NeurIPS-2024 | 具身智能如何理解空间关系?SpatialRGPT:视觉语言模型中的具象空间推理
人工智能·具身智能