RuntimeError: CUDA error: invalid device ordinal

RuntimeError: CUDA error: invalid device ordinal

报错分析:

如果你在运行代码时报错:

py 复制代码
RuntimeError: CUDA error: invalid device ordinal

这个错误通常表示您指定的 GPU 设备编号不存在或不可用。

可能原因1:设置CUDA_VISIBLE_DEVICES的问题

我回顾一下我是怎么遇到的这个问题:

  1. 我在sh文件里写了一句:CUDA_VISIBLE_DEVICES="1"
  2. 我在sh调用的py文件里又写了一句os.environ["CUDA_VISIBLE_DEVICES"] = "1"
  3. 之后运行程序报错。

报错原因:

  1. 我在sh文件里设置CUDA_VISIBLE_DEVICES="1"来运行程序,这意味着py程序只能看见一张GPU卡,也就是1号卡 。

  2. 这一张1号卡,通过物理设备编号到虚拟设备编号的映射,因为GPU卡号索引从0开始,py程序认为整个设备只有一张0号GPU卡。

  3. 这时我再在py文件里加一句os.environ["CUDA_VISIBLE_DEVICES"] = "1",让其在只认为程序有一张0号卡的时候运行1号卡,它就会报错,认为GPU设备编号不存在。

解决办法:

把py文件里的os.environ["CUDA_VISIBLE_DEVICES"] = "1"删掉即可,只在sh文件里输入指定的卡号即可。

可能原因2:硬件或驱动原因

系统可能确实没有那么多卡,或驱动没装好

解决方法:

  1. 检查GPU数量和设备编号:
    • 使用nvidia-smi命令来查看系统中可用的GPU数量和它们的编号。确保你的代码中使用的设备编号与nvidia-smi显示的编号相匹配。
  2. 访问NVIDIA官网,下载并安装与你的GPU型号和系统相匹配的最新驱动。 确保安装了正确版本的CUDA工具包,并且与你的GPU驱动兼容。
  3. 检查代码中的设备选择逻辑:仔细审查你的代码,特别是与CUDA设备选择和初始化相关的部分。确保在尝试使用CUDA设备之前,已经正确地选择了存在的设备。可以使用如下两条命令来检查设备选择逻辑。
    • print(torch.cuda.device_count())
    • print(torch.cuda.current_device())

参考资料

  1. 我自己的实验
  2. 已解决RuntimeError: CUDA error: invalid device ordinal 亲测有效!!!
相关推荐
Tom Boom6 分钟前
1.11.信息系统的分类【DSS】
人工智能·算法·机器学习·职场和发展·分类·数据挖掘·系统架构
扫地僧98510 分钟前
MuMu-LLaMA:通过大型语言模型进行多模态音乐理解和生成(Python代码实现+论文)
人工智能·语言模型·llama
skywalk816311 分钟前
Trae 是一款由 AI 驱动的 IDE,让编程更加愉悦和高效。国际版集成了 GPT-4 和 Claude 3.5,国内版集成了DeepSeek-r1
人工智能·trae
WenGyyyL18 分钟前
使用OpenCV和MediaPipe库——驼背检测(姿态监控)
人工智能·python·opencv·算法·计算机视觉·numpy
梓羽玩Python30 分钟前
开源版Manus来了!14.7k标星的OpenManus,让AI替你全自动执行任务!
人工智能·github
蹦蹦跳跳真可爱58931 分钟前
Python----数据分析(Matplotlib四:Figure的用法,创建Figure对象,常用的Figure对象的方法)
python·数据分析·matplotlib
广拓科技31 分钟前
中国视频生成 AI 开源潮:腾讯阿里掀技术普惠革命,重塑内容创作格局
人工智能·开源
dr李四维41 分钟前
Java在小米SU7 Ultra汽车中的技术赋能
java·人工智能·安卓·智能驾驶·互联·小米su7ultra·hdfs架构
guanshiyishi42 分钟前
ABeam 德硕 | 中国汽车市场(1)——正在推进电动化的中国汽车市场
人工智能·物联网·汽车
思茂信息43 分钟前
CST直角反射器 --- 距离多普勒(RD图), 毫米波汽车雷达ADAS
前端·人工智能·5g·汽车·无人机·软件工程