CUDA索引越界问题(Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions)

一年以来,主要从事了时空模型的研究。去年6月份发布了一篇文章也是关于CUDA索引越界问题的博客,只不过报错的信息不一样。这次是Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions。上网搜索了一下,发现有很多人遇到这样的问题。但是原因不一,让我意识到这个错误的复杂性。

有的说是:显存不足,需要通过降低batch size解决;

有的说是:数据集导入错误;

各种问题总结下来,如果是显存问题,那确实是硬伤,但更多的是由于运算或逻辑错误,这可能确实由数据集引起的,也可能是代码计算过程中产生的。所以遇到这种问题最重要的是静下心来分析出错的位置和所涉及到的数据和运算 。因此,如何找到出错位置,还是请参考我上一篇文章:https://blog.csdn.net/qq_45767840/article/details/148700059?spm=1011.2124.3001.6209

这里的第一步是找到问题所在的关键。

为什么我还要再写一遍,因为我这次错误的原因,确实是因为图结构一行全0了。这次找到具体原因了。也发现我的这两篇文章的索引越界都是和时空模型常见错误相关,如果你运行的其他模型报此错误,解决这个错误的思想还是很重要的。

相关推荐
冰西瓜6006 分钟前
深度学习的数学原理(四十)—— Transformer 推理全过程
人工智能·深度学习·transformer
Bingorl8 分钟前
机器学习之集成学习
人工智能·机器学习·集成学习
weixin_4684668515 分钟前
SURF 图像特征提取算法新手实战指南
图像处理·人工智能·算法·机器视觉·surf·sift
盛夏光年爱学习15 分钟前
Agentic RAG 深度解析:让 Agent 自己决定要不要检索、检索几次,这才是 RAG 的正确打开方式
人工智能
weiwin12315 分钟前
MAF入门(3 下):多轮对话进阶——清除历史、注入 System、截断策略
人工智能·agent
Coder小相18 分钟前
LangChain 1.0 第五篇 - Tool与MCP让Agent拥有行动力
人工智能·langchain·ai编程
太华21 分钟前
学习AI Agent编程-第五天-LlamaIndex - 将Nodes生成索引并存储
人工智能
太华23 分钟前
学习AI Agent编程-第三天-LlamaIndex - 如何将PDF文件正确转成Document
人工智能
jiayong2332 分钟前
AI架构师面试问题与解答 - 深度学习架构篇
人工智能·深度学习
unclejet36 分钟前
颠覆传统开发!AI根治软件工程技术债务顽疾
大数据·人工智能·软件工程