AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
花酒锄作田1 小时前
企业微信机器人与 DeepAgents 集成实践
python·mcp·deepagents
财迅通Ai3 小时前
商业航天概念领涨A股,航天ETF华安(159267.SZ)收盘上涨1.2%
大数据·人工智能·区块链·中国卫星·航天电子
齐齐大魔王3 小时前
智能语音技术(八)
人工智能·语音识别
likerhood3 小时前
java中`==`和`.equals()`区别
java·开发语言·python
许彰午4 小时前
零成本搭建RAG智能客服:Ollama + Milvus + DeepSeek全程实战
人工智能·语音识别·llama·milvus
ZPC82104 小时前
自定义action server 接收arm_controller 指令
人工智能·机器人
迷茫的启明星4 小时前
各职业在当前发展阶段,使用AI的舒适区与盲区
大数据·人工智能·职场和发展
qq_283720054 小时前
Python Celery + FastAPI + Vue 全栈异步任务实战
vue.js·python·fastapi
2401_885885044 小时前
营销推广短信接口集成:结合营销策略实现的API接口动态变量填充方案
前端·python
Liqiuyue5 小时前
Transformer:现代AI革命背后的核心模型
人工智能·算法·机器学习