RuntimeError: CUDA error: invalid device ordinal

RuntimeError: CUDA error: invalid device ordinal

报错分析:

如果你在运行代码时报错:

py 复制代码
RuntimeError: CUDA error: invalid device ordinal

这个错误通常表示您指定的 GPU 设备编号不存在或不可用。

可能原因1:设置CUDA_VISIBLE_DEVICES的问题

我回顾一下我是怎么遇到的这个问题:

  1. 我在sh文件里写了一句:CUDA_VISIBLE_DEVICES="1"
  2. 我在sh调用的py文件里又写了一句os.environ["CUDA_VISIBLE_DEVICES"] = "1"
  3. 之后运行程序报错。

报错原因:

  1. 我在sh文件里设置CUDA_VISIBLE_DEVICES="1"来运行程序,这意味着py程序只能看见一张GPU卡,也就是1号卡 。

  2. 这一张1号卡,通过物理设备编号到虚拟设备编号的映射,因为GPU卡号索引从0开始,py程序认为整个设备只有一张0号GPU卡。

  3. 这时我再在py文件里加一句os.environ["CUDA_VISIBLE_DEVICES"] = "1",让其在只认为程序有一张0号卡的时候运行1号卡,它就会报错,认为GPU设备编号不存在。

解决办法:

把py文件里的os.environ["CUDA_VISIBLE_DEVICES"] = "1"删掉即可,只在sh文件里输入指定的卡号即可。

可能原因2:硬件或驱动原因

系统可能确实没有那么多卡,或驱动没装好

解决方法:

  1. 检查GPU数量和设备编号:
    • 使用nvidia-smi命令来查看系统中可用的GPU数量和它们的编号。确保你的代码中使用的设备编号与nvidia-smi显示的编号相匹配。
  2. 访问NVIDIA官网,下载并安装与你的GPU型号和系统相匹配的最新驱动。 确保安装了正确版本的CUDA工具包,并且与你的GPU驱动兼容。
  3. 检查代码中的设备选择逻辑:仔细审查你的代码,特别是与CUDA设备选择和初始化相关的部分。确保在尝试使用CUDA设备之前,已经正确地选择了存在的设备。可以使用如下两条命令来检查设备选择逻辑。
    • print(torch.cuda.device_count())
    • print(torch.cuda.current_device())

参考资料

  1. 我自己的实验
  2. 已解决RuntimeError: CUDA error: invalid device ordinal 亲测有效!!!
相关推荐
B站_计算机毕业设计之家2 分钟前
计算机毕业设计:Python农业数据可视化分析系统 气象数据 农业生产 粮食数据 播种数据 爬虫 Django框架 天气数据 降水量(源码+文档)✅
大数据·爬虫·python·机器学习·信息可视化·课程设计·农业
Q_Q51100828515 分钟前
python+uniapp基于微信小程序的旅游信息系统
spring boot·python·微信小程序·django·flask·uni-app·node.js
伏小白白白16 分钟前
【论文精度-2】求解车辆路径问题的神经组合优化算法:综合展望(Yubin Xiao,2025)
人工智能·算法·机器学习
鄃鳕17 分钟前
python迭代器解包【python】
开发语言·python
应用市场20 分钟前
OpenCV编程入门:从零开始的计算机视觉之旅
人工智能·opencv·计算机视觉
星域智链38 分钟前
宠物智能用品:当毛孩子遇上 AI,是便利还是过度?
人工智能·科技·学习·宠物
taxunjishu1 小时前
DeviceNet 转 MODBUS TCP罗克韦尔 ControlLogix PLC 与上位机在汽车零部件涂装生产线漆膜厚度精准控制的通讯配置案例
人工智能·区块链·工业物联网·工业自动化·总线协议
懷淰メ1 小时前
python3GUI--模仿百度网盘的本地文件管理器 By:PyQt5(详细分享)
开发语言·python·pyqt·文件管理·百度云·百度网盘·ui设计
Q_Q5110082851 小时前
python基于web的汽车班车车票管理系统/火车票预订系统/高铁预定系统 可在线选座
spring boot·python·django·flask·node.js·汽车·php
新子y1 小时前
【小白笔记】普通二叉树(General Binary Tree)和二叉搜索树的最近公共祖先(LCA)
开发语言·笔记·python