CUDA索引越界问题(Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions)

一年以来,主要从事了时空模型的研究。去年6月份发布了一篇文章也是关于CUDA索引越界问题的博客,只不过报错的信息不一样。这次是Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions。上网搜索了一下,发现有很多人遇到这样的问题。但是原因不一,让我意识到这个错误的复杂性。

有的说是:显存不足,需要通过降低batch size解决;

有的说是:数据集导入错误;

各种问题总结下来,如果是显存问题,那确实是硬伤,但更多的是由于运算或逻辑错误,这可能确实由数据集引起的,也可能是代码计算过程中产生的。所以遇到这种问题最重要的是静下心来分析出错的位置和所涉及到的数据和运算 。因此,如何找到出错位置,还是请参考我上一篇文章:https://blog.csdn.net/qq_45767840/article/details/148700059?spm=1011.2124.3001.6209

这里的第一步是找到问题所在的关键。

为什么我还要再写一遍,因为我这次错误的原因,确实是因为图结构一行全0了。这次找到具体原因了。也发现我的这两篇文章的索引越界都是和时空模型常见错误相关,如果你运行的其他模型报此错误,解决这个错误的思想还是很重要的。

相关推荐
木泽八7 小时前
2026年网络安全威胁全景:AI攻防新纪元完全指南
人工智能·安全·web安全
MediaTea7 小时前
知识图谱 04:知识表示模型
人工智能·知识图谱
词元Max7 小时前
Java 转 AI Agent 开发学习路线(2026年3月最新版)
java·人工智能·学习
实在智能RPA7 小时前
Agent如何帮助企业减少人为操作失误?——2026年企业级智能体闭环执行与风险治理深度拆解
人工智能·ai
数字卢语7 小时前
如何从 0 搭建 Hermes Agent,并打通微信的(完整踩坑与排错记录)
人工智能
程序员勋勋17 小时前
使用claude code时,为什么token消费会突然一下变高
人工智能
五点钟科技7 小时前
LLaVA 论文精读以及源码网络结构完整分析
人工智能·多模态·clip·llava
Gofarlic_OMS7 小时前
应对MathWorks合规审查的专项准备工作
大数据·服务器·网络·数据库·人工智能
-cywen-7 小时前
VAE(Variational AutoEncoder)
人工智能·深度学习
05大叔7 小时前
词向量化和文本向量化,KMeans
人工智能·机器学习