Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

今天在调试 Mamba 模型,然后我发现一个很奇怪的现象:如果我指定了 "CUDA:5" 进行调试,程序就会出现如下的报错;但如果我用 "CUDA:0" 运行程序,就能够正常运行,不发生程序报错。

我从张量的维度,张量的数据类型等方面都详细检查过了,同时确保了张量和模型也确实同时在 "CUDA:5" 显卡上,这让我和GPT都一脸懵逼。


错误代码

我用如下的代码指定当前环境的可见显卡,这样一来,你猜猜我的 inputs 会出现哪张显卡上?

出现在:CUDA0!而非CUDA5!

python 复制代码
import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法!必须在导入torch前,就设置 CUDA_VISIBLE_DEVICES,代码如下,否则无效!

确保 **os.environ["CUDA_VISIBLE_DEVICES"] = "5"**这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行,那么这个环境变量的更改不会生效

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码,因此运行环境仍然对所有显卡都可见,导致某些中间运行结果暂存在 "CUDA:0" 上,这与我的模型 "CUDA:5" 的设备不一致,导致发生错误。

切记!检查环境变量是否生效!

相关推荐
Juchecar几秒前
翻译:与语言无关的编程:为什么你可能仍然需要代码
人工智能
云心雨禅1 分钟前
AI训练成本优化,腾讯云GPU实例选型
人工智能·云计算·腾讯云
聚梦小课堂2 分钟前
2025年11月11日 AI快讯
人工智能·新闻资讯·ai大事件
taxunjishu4 分钟前
Modbus RTU 转 Modbus TCP:借助数据采集提升罗克韦尔PLC工艺参数反馈实时性案例
人工智能·物联网·tcp/ip·工业物联网·工业自动化·总线协议
IT考试认证8 分钟前
微软AI-900考试认证题库
人工智能·microsoft
Mintopia11 分钟前
🧠 可定制化 AIGC:Web 用户个性化模型训练的技术门槛正在塌缩!
前端·人工智能·trae
打码人的日常分享12 分钟前
智慧楼宇资料合集,智慧城市智慧社区智慧园区
大数据·网络·人工智能
PieroPc18 分钟前
一个基于Python Streamlit sqlite3 的销售单管理系统,提供商品管理、客户管理、销售单管理及打印,和应收对账单等功能
python·oracle·sqlite·streamlit
月下倩影时20 分钟前
视觉进阶篇—— PyTorch 安装
人工智能·pytorch·python
ThreeS_tones28 分钟前
ppo爬坡代码及解释
人工智能·深度学习