AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
Rocktech_ruixun几秒前
2026服务机器人选型指南
人工智能·科技·ai·机器人
zhaoshuzhaoshu1 分钟前
AI Agent 运行全流程-泳道图详解
人工智能
在坚持一下我可没意见3 分钟前
Python 修仙修炼录 05:循环神通,省去无用苦修
开发语言·python·面试·入门·循环·复习
沫儿笙3 分钟前
安川机器人摩托车车架焊接节气设备
网络·人工智能·机器人
北风朝向9 分钟前
Spring Boot 集成 Open WebUI 实现 AI 流式对话
人工智能·spring boot·状态模式
云烟成雨TD10 分钟前
Spring AI Alibaba 1.x 系列【53】Interrupts 中断机制:动态中断
java·人工智能·spring
Raink老师12 分钟前
【AI面试临阵磨枪-56】大模型服务部署:Docker、K8s、GPU 调度、推理加速
人工智能·面试·kubernetes·ai 面试
云上码厂13 分钟前
NeurIPS 研讨会资料:用机器学习应对气候变化
人工智能
科技小花14 分钟前
2026 年度生成式引擎优化(GEO)标杆产品:百分点科技 Generforce 的差异化路径
大数据·人工智能·科技·geo·ai搜索
安心联-车辆监控管理系统16 分钟前
车载主动安全ADAS/DSM技术原理、业务应用与平台接入方案
人工智能·安全