AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
小领航13 小时前
构建 MySQL MCP Server
人工智能·node.js
paperClub13 小时前
AACR 2026 · AI诊断:深度学习在肿瘤早期检测中的应用
人工智能·深度学习
碳基硅坊13 小时前
使用RAGFlow搭建本地知识库
人工智能·知识库·rag·ragflow
w1wi13 小时前
CRA 差距分析完全指南 | 合规落地第一步
网络·人工智能·安全
阿里云大数据AI技术13 小时前
从图片到声音、视频:MaxCompute MaxFrame 多模态算子模块,让海量多模态数据"跑"起来
人工智能
IT策士13 小时前
Django 从 0 到 1 打造完整电商平台:为什么用 Django 做电商?
后端·python·django
做萤石二次开发的哈哈13 小时前
如何调用接口向指定设备下发语音播放?
人工智能·语音识别
隔壁大炮13 小时前
ERPLAB数据预处理操作
人工智能·预处理·eeg·脑电分析
桜吹雪13 小时前
所有智能体架构(1):反思 (Reflection)
javascript·人工智能
zkkkkkkkkkkkkk13 小时前
Linux进行管理工具Supervisor配置与使用
linux·python·supervisor