AMD CPU下pytorch 多GPU运行卡死和死锁解决

参考链接

https://medium.com/@amitparekh/solving-ddp-deadlock-with-multiple-gpus-and-amd-cpus-442186632034

简要说明

  • AMD的IOMMU 和NVIDIA的NCCL不兼容问题导致
  • AMD的IOMMU是BIOS 级组件,它基本上充当将虚拟地址映射到 GPU 上的物理地址的接口,它的全部目的是让 CPU 和 GPU 的内存更好地协同工作
  • NVIDIA的NCCL是Nvidia的多卡通信库,用于深度学习中的多GPU并行训练

解决方案 (关闭IOMMU)

  • ubuntu
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg
sudo reboot
  • centos
bash 复制代码
sudo bash -c'echo GRUB_CMDLINE_LINUX="amd_iommu=off" >> /etc/default/grub'
sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg 
sudo reboot
相关推荐
QYR-分析6 小时前
全球轻量化新能源汽车市场分析:现状、机遇与发展展望
人工智能·机器人
m0_716430076 小时前
mysql数据库表名区分大小写吗_通过lower case table names配置
jvm·数据库·python
mahtengdbb16 小时前
GDSAFusion全局-局部双尺度自适应融合改进YOLOv26多尺度特征表达能力
人工智能·深度学习·yolo
BitaHub20246 小时前
AI 也能按设计规范出图?Qwen-Image-2512 本地海报生成实战
人工智能·设计规范·bitahub
Rsun045516 小时前
15、Java 观察者模式从入门到实战
java·python·模板方法模式
Acland2409406 小时前
基于 PyTorch 的 Fashion-MNIST CNN 分类模型
人工智能·pytorch·分类
w_t_y_y6 小时前
Agent 开发框架(二)CrewAI
人工智能
2501_945837436 小时前
OpenClaw:让 AI 从 “聊天” 到 “干活” 的本地智能体革命
人工智能
2401_835956816 小时前
如何利用SQL子查询进行实时监控数据分析_性能优化
jvm·数据库·python
百锦再6 小时前
使用JavaScript获取和解析页面内容的完整指南
开发语言·前端·javascript·python·flask·fastapi