Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

今天在调试 Mamba 模型,然后我发现一个很奇怪的现象:如果我指定了 "CUDA:5" 进行调试,程序就会出现如下的报错;但如果我用 "CUDA:0" 运行程序,就能够正常运行,不发生程序报错。

我从张量的维度,张量的数据类型等方面都详细检查过了,同时确保了张量和模型也确实同时在 "CUDA:5" 显卡上,这让我和GPT都一脸懵逼。


错误代码

我用如下的代码指定当前环境的可见显卡,这样一来,你猜猜我的 inputs 会出现哪张显卡上?

出现在:CUDA0!而非CUDA5!

python 复制代码
import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法!必须在导入torch前,就设置 CUDA_VISIBLE_DEVICES,代码如下,否则无效!

确保 **os.environ["CUDA_VISIBLE_DEVICES"] = "5"**这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行,那么这个环境变量的更改不会生效

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码,因此运行环境仍然对所有显卡都可见,导致某些中间运行结果暂存在 "CUDA:0" 上,这与我的模型 "CUDA:5" 的设备不一致,导致发生错误。

切记!检查环境变量是否生效!

相关推荐
极客老王说Agent几秒前
实在Agent委外加工智能化管控方案与落地案例:从数字劳动力到离散制造全链路闭环
人工智能·ai·制造
Elastic 中国社区官方博客几秒前
jina-embeddings-v5-omni:用于文本、图像、音频和视频的 embeddings
大数据·人工智能·elasticsearch·搜索引擎·ai·音视频·jina
zhaoyong2222 分钟前
JavaScript中骨架屏Skeleton在异步数据加载中应用
jvm·数据库·python
如竟没有火炬2 分钟前
去除重复字母——贪心+单调栈
开发语言·数据结构·python·算法·leetcode·深度优先
郑寿昌4 分钟前
AI时代动画游戏新职业方向
人工智能·游戏
一次旅行4 分钟前
今日AI 新闻简报
人工智能·ai编程·ai写作
m0_591364734 分钟前
C#怎么使用LINQ OrderBy排序 C#如何用LINQ对集合按多个字段进行升序降序排列【语法】
jvm·数据库·python
小仙女的小稀罕4 分钟前
外教课转写工具选择建议 | 实测筛选高口碑实用方案
大数据·人工智能·学习·自然语言处理·语音识别
m0_733565464 分钟前
HTML函数开发需要独立显卡吗_HTML函数与显卡关系详解【说明】
jvm·数据库·python
啦啦啦_99995 分钟前
1. 深度学习概述
人工智能·深度学习