Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

今天在调试 Mamba 模型,然后我发现一个很奇怪的现象:如果我指定了 "CUDA:5" 进行调试,程序就会出现如下的报错;但如果我用 "CUDA:0" 运行程序,就能够正常运行,不发生程序报错。

我从张量的维度,张量的数据类型等方面都详细检查过了,同时确保了张量和模型也确实同时在 "CUDA:5" 显卡上,这让我和GPT都一脸懵逼。


错误代码

我用如下的代码指定当前环境的可见显卡,这样一来,你猜猜我的 inputs 会出现哪张显卡上?

出现在:CUDA0!而非CUDA5!

python 复制代码
import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法!必须在导入torch前,就设置 CUDA_VISIBLE_DEVICES,代码如下,否则无效!

确保 **os.environ["CUDA_VISIBLE_DEVICES"] = "5"**这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行,那么这个环境变量的更改不会生效

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码,因此运行环境仍然对所有显卡都可见,导致某些中间运行结果暂存在 "CUDA:0" 上,这与我的模型 "CUDA:5" 的设备不一致,导致发生错误。

切记!检查环境变量是否生效!

相关推荐
啊阿狸不会拉杆11 小时前
《数字图像处理 》 第 1 章-绪论
图像处理·python·opencv·算法·数字图像处理
许泽宇的技术分享11 小时前
Sim.ai:开源AI工作流编排平台的技术革命——从可视化设计到生产级部署的完整实践
人工智能·开源
智驱力人工智能11 小时前
加油站静电夹检测 视觉分析技术的安全赋能与实践 静电夹检测 加油站静电夹状态监测 静电接地报警器检测
人工智能·深度学习·算法·安全·yolo·边缘计算
星环之光11 小时前
关于CNN(卷积神经网络)
人工智能·神经网络·cnn
阿里云云原生11 小时前
LoongSuite:解决 WebSocket 全链路可观测性难题,赋能 AI 应用的实时链路追踪
人工智能·websocket·网络协议·阿里云·云原生·可观测
小白勇闯网安圈11 小时前
upload、very_easy_sql、i-got-id-200
python·网络安全·web
石国旺11 小时前
python打包PyInstaller程序,怎么越来越大,如何解决?
开发语言·python
拓端研究室12 小时前
专题:2025医疗行业核心洞察报告:AI医疗、医疗器械、投融资与新药|附380+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能
python-码博士12 小时前
关于sklearn中StandardScaler的使用方式
人工智能·python·sklearn
Java后端的Ai之路12 小时前
【分析式AI】-分类与回归的区别以及内联
人工智能·分类·数据挖掘·回归·aigc