Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

今天在调试 Mamba 模型,然后我发现一个很奇怪的现象:如果我指定了 "CUDA:5" 进行调试,程序就会出现如下的报错;但如果我用 "CUDA:0" 运行程序,就能够正常运行,不发生程序报错。

我从张量的维度,张量的数据类型等方面都详细检查过了,同时确保了张量和模型也确实同时在 "CUDA:5" 显卡上,这让我和GPT都一脸懵逼。


错误代码

我用如下的代码指定当前环境的可见显卡,这样一来,你猜猜我的 inputs 会出现哪张显卡上?

出现在:CUDA0!而非CUDA5!

python 复制代码
import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法!必须在导入torch前,就设置 CUDA_VISIBLE_DEVICES,代码如下,否则无效!

确保 **os.environ["CUDA_VISIBLE_DEVICES"] = "5"**这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行,那么这个环境变量的更改不会生效

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码,因此运行环境仍然对所有显卡都可见,导致某些中间运行结果暂存在 "CUDA:0" 上,这与我的模型 "CUDA:5" 的设备不一致,导致发生错误。

切记!检查环境变量是否生效!

相关推荐
天天进步20151 分钟前
【Nanobrowser 源码分析 5】实战篇:如何基于 Nanobrowser 源码定制属于你的 AI 自动化助手
人工智能
Yuer20252 分钟前
当 LLM 成为新的“解释出口”:从 AI SEO 到可控 AI,人机交互范式已经必须改变
人工智能·人机交互
slient_love3 分钟前
n8n部署安装(docker)、支持Code in Python (Native)节点
python·docker·n8n
寻星探路4 分钟前
深度解析网络编程套接字:从 Socket 底层原理到 Java 高性能实战
java·网络·人工智能·python·机器学习·php
P-ShineBeam7 分钟前
知识图谱-KGQA意图澄清-CLEAR_KGQA
人工智能·语言模型·自然语言处理·知识图谱
paopao_wu8 分钟前
LangChainV1.0[06]-Prompt/上下文/结构化输出
人工智能·langchain·prompt·ai编程
权泽谦9 分钟前
传统机器学习 vs 深度学习:什么时候该选谁?
人工智能·深度学习·机器学习
多米Domi0119 分钟前
0x3f 第23天 黑马web (前端三件套,maven,web入门、mysql)黑马反射注解 hot100普通数组
java·python·mysql·算法·leetcode·maven
@zulnger9 分钟前
python 学习笔记(面向对象)
笔记·python·学习
金融Tech趋势派9 分钟前
2026金融行业私域运营:选SCRM,合规与功能如何平衡?微盛·企微管家解析
人工智能