(已解决)(pytorch指定了gpu但还是占用了一点0号gpu)以及错误(cuDNN error: CUDNN_STATUS_INTERNAL_ERROR)

文章目录

错误原因

出现错误cuDNN error: CUDNN_STATUS_INTERNAL_ERROR,从这个名字就可以看出,出错原因其实有可能有很多种,我这里说一种比较常见的,就是:显存不足。

一个困惑点在于,在我们的印象中,显存不足不是报另外一个错吗?RuntimeError: CUDA Out of memory。事实上,后者是运行时错误,一般通过降低batch size, 向量维度,神经网络层数可以解决。

前者报错我的理解是当使用CUDA的时候Pytorch内部有一个初始化,默认运行在第0块GPU(即使模型被指定运行在其他GPU),然后显存不足指的是在初始化的时候显存不足,也就是第0块GPU显存不足以支撑初始化了,一般初始化其实并不消耗多少显存,比模型运行时一般小多了,那为什么还会报错呢?一般是因为第0块GPU被别的童鞋占用了。我的情况如下:gpu0被别人使用了24059MB,然后一共只有24268MB,所以初始化失败,就会报上述错误。

解决问题

我们其实就是要解决Pytorch指定了gpu但还是会占用了一点0号gpu(初始化默认会在0上面)。解决办法如下:

假设我们指定模型要全部运行在5号gpu上(包括初始化也要在5号上)。

python 复制代码
import os
import torch
os.environ['CUDA_VISIBLE_DEVICES'] = "5"
device=torch.device("cuda:{}".format(0))

第一行代码:将5号gpu设置为可见,此时其他gpu全部无法再见到。
第二行代码:仅有5号gpu可见,此时gpu编号会改变,5号gpu会变成0号gpu,所以指定0号gpu,其实就是指定原来的5号gpu。

作为对比,平常我们大多数人其实是下面这样运行的

python 复制代码
import os
import torch
device=torch.device("cuda:5")
相关推荐
百度一见24 分钟前
以AI见未来,以技筑新程|百度一见受邀参与2026中国机器人及人工智能大赛关键技术研讨会
人工智能·机器人
小陈工1 小时前
Python安全编程实践:常见漏洞与防护措施
运维·开发语言·人工智能·python·安全·django·开源
NGINX开源社区2 小时前
使用 NGINX 作为 AI Proxy
大数据·人工智能·nginx
腾讯蓝鲸智云8 小时前
嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》
运维·人工智能·信息可视化·自动化
2401_874732538 小时前
为你的Python脚本添加图形界面(GUI)
jvm·数据库·python
LaughingZhu8 小时前
Product Hunt 每日热榜 | 2026-03-25
人工智能·经验分享·深度学习·神经网络·产品运营
FreakStudio8 小时前
0 元学嵌入式 GUI!保姆级 LVGL+MicroPython 教程开更,从理论到实战全搞定
python·单片机·嵌入式·面向对象·电子diy
蟑螂恶霸8 小时前
Windows安装OpenCV 4.8
人工智能·windows·opencv
枫叶林FYL8 小时前
【自然语言处理 NLP】第二章 经典NLP算法与特征工程(Classical NLP Algorithms)
人工智能·深度学习·机器学习
非著名程序员8 小时前
阿里云重磅上线 Qoder 专家团模式,AI 编程进入组团作战时代
人工智能