Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

问题描述

今天在调试 Mamba 模型,然后我发现一个很奇怪的现象:如果我指定了 "CUDA:5" 进行调试,程序就会出现如下的报错;但如果我用 "CUDA:0" 运行程序,就能够正常运行,不发生程序报错。

我从张量的维度,张量的数据类型等方面都详细检查过了,同时确保了张量和模型也确实同时在 "CUDA:5" 显卡上,这让我和GPT都一脸懵逼。


错误代码

我用如下的代码指定当前环境的可见显卡,这样一来,你猜猜我的 inputs 会出现哪张显卡上?

出现在:CUDA0!而非CUDA5!

python 复制代码
import torch
import models
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5"
inputs = torch.randn(2, 1024, 3).cuda()

正确代码

正确方法!必须在导入torch前,就设置 CUDA_VISIBLE_DEVICES,代码如下,否则无效!

确保 **os.environ["CUDA_VISIBLE_DEVICES"] = "5"**这一行代码是在导入 PyTorch 或执行任何 CUDA 操作之前设置的。如果已经有其他 CUDA 操作或模块初始化在 CUDA_VISIBLE_DEVICES 之前执行,那么这个环境变量的更改不会生效

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] ="5,6"

import torch
import models

错因总结

因为我使用了错误代码,因此运行环境仍然对所有显卡都可见,导致某些中间运行结果暂存在 "CUDA:0" 上,这与我的模型 "CUDA:5" 的设备不一致,导致发生错误。

切记!检查环境变量是否生效!

相关推荐
Swizard10 分钟前
别再硬编码配置了!5分钟带你用 PyYAML 让 Python 项目“活”起来
python
山海青风20 分钟前
人工智能基础与应用 - 数据处理、建模与预测流程 7 基础模型之回归模型
人工智能·数据挖掘·回归
香蕉君24 分钟前
第一品——LangChain核心基础
人工智能·langchain
GEO AI搜索优化助手28 分钟前
生成式AI如何重塑搜索生态与用户体验
人工智能·生成式引擎优化·ai优化·geo搜索优化
love530love29 分钟前
Windows 下 Z-Image-Turbo 专业版 Gradio 生成器实战:功能增强全记录
人工智能·windows·python·大模型·gradio·博客之星·z-image
万俟淋曦29 分钟前
【论文速递】2025年第44周(Oct-26-Nov-01)(Robotics/Embodied AI/LLM)
人工智能·深度学习·ai·机器人·论文·具身智能·robotic
zxsz_com_cn30 分钟前
设备预测性维护怎么做?预测性维护案例详解
大数据·人工智能
丝斯201134 分钟前
AI学习笔记整理(37)——自然语言处理的基本任务
人工智能·笔记·学习
王中阳Go40 分钟前
字节开源 Eino 框架上手体验:Go 语言终于有能打的 Agent 编排工具了(含 RAG 实战代码)
人工智能·后端·go
天竺鼠不该去劝架44 分钟前
免费RPA工具有哪些?主流产品详解与选型指南
人工智能