Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

今天在调试 Mamba 模型,然后我发现一个很奇怪的现象:如果我指定了 "CUDA:5" 进行调试,程序就会出现如下的报错;但如果我用 "CUDA:0" 运行程序,就能够正常运行,不发生程序报错。

我从张量的维度,张量的数据类型等方面都详细检查过了,同时确保了张量和模型也确实同时在 "CUDA:5" 显卡上,这让我和GPT都一脸懵逼。


错误代码

我用如下的代码指定当前环境的可见显卡,这样一来,你猜猜我的 inputs 会出现哪张显卡上?

出现在:CUDA0!而非CUDA5!

python 复制代码
import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法!必须在导入torch前,就设置 CUDA_VISIBLE_DEVICES,代码如下,否则无效!

确保 **os.environ["CUDA_VISIBLE_DEVICES"] = "5"**这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行,那么这个环境变量的更改不会生效

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码,因此运行环境仍然对所有显卡都可见,导致某些中间运行结果暂存在 "CUDA:0" 上,这与我的模型 "CUDA:5" 的设备不一致,导致发生错误。

切记!检查环境变量是否生效!

相关推荐
m0_734949791 分钟前
mysql如何通过Docker快速搭建_mysql容器化部署实践
jvm·数据库·python
2301_796588506 分钟前
Golang怎么处理JSON大数字精度_Golang如何避免前端JavaScript解析大整数丢失精度【避坑】
jvm·数据库·python
吕源林7 分钟前
如何使用关联数组_Index-By Table集合类型定义与遍历
jvm·数据库·python
陶然同学7 分钟前
【Python】文件操作
开发语言·python
2301_7751481510 分钟前
如何配置物化视图只进行完全刷新_COMPLETE Refresh的强制刷新场景
jvm·数据库·python
m0_7436239212 分钟前
HTML函数本地测试需多少带宽_HTML函数与网络硬件关系【操作】
jvm·数据库·python
YJlio12 分钟前
2026年4月18日60秒读懂世界:从神舟二十号出舱到L2新国标公示,今天最值得关注的6个信号
windows·python·django·计算机外设·电脑·outlook·eixv3
2301_8135995512 分钟前
c#如何添加按钮点击事件_c#添加按钮点击事件的几种常见用法
jvm·数据库·python
2301_8148098614 分钟前
如何让导航栏下落动画变慢?——CSS 动画时长精准控制教程
jvm·数据库·python
weixin_4249993614 分钟前
mysql如何利用并行查询提速_mysql 8.0并行扫描特性
jvm·数据库·python