Pytorch报错RuntimeError: CUDA error: device-side assert triggered

参考:

  • https://blog.csdn.net/BetrayFree/article/details/134267306

完整报错如下:

shell 复制代码
Traceback (most recent call last):
  File "/home/yingmuzhi/SpecML2/test.py", line 150, in <module>
    trainer.fit(model, data)
  File "/home/yingmuzhi/SpecML2/core.py", line 486, in fit
    self.fit_epoch()
  File "/home/yingmuzhi/SpecML2/core.py", line 496, in fit_epoch
    loss = self.model.training_step(self.prepare_batch(batch))
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yingmuzhi/SpecML2/core.py", line 394, in training_step
    self.plot('loss', l, train=True)
  File "/home/yingmuzhi/SpecML2/core.py", line 384, in plot
    self.board.draw(x, value.to(cpu()).detach().numpy(),
                       ^^^^^^^^^^^^^^^
RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

有很多愿意会导致这个CUDA triggered的Error,我的问题是在于网络前半部分都是卷积层,在最后一层使用了全连接层,而在最后一层我的输出并没有和类别相匹配。例如,原先多分类我用的是十个类别,更改成二十二种类别后忘记改输出的类别了,将类别和输出channel相匹配便解决了。

相关推荐
无垠的广袤2 分钟前
【Titan RA8P1 Board】MNIST 数字识别
人工智能·单片机·瑞萨·mnist·数字识别·ra8p1·ruhmi
witAI2 分钟前
手机生成剧本杀软件2025推荐,创新剧情设计工具助力创作
人工智能·python
人工智能AI技术2 分钟前
2026年AI编程新范式:“渐进式Spec“
人工智能
砍材农夫9 分钟前
spring-ai 第三结构化输出
java·人工智能·spring
tHeya06II16 分钟前
.NET AI 核心构建块:重塑智能应用开发的架构范式与生态
人工智能·架构·.net
m0_7372469821 分钟前
B端&企业内部产品AI赋能的机会点识别和落地
人工智能
comedate26 分钟前
【OpenClaw】图像配置指南
人工智能·openclaw·图像修改
派大星~课堂26 分钟前
【力扣-138. 随机链表的复制 ✨】Python笔记
python·leetcode·链表
王忘杰28 分钟前
0基础CUDA炼丹、增加断点保存,从零开始训练自己的AI大模型 87owo/EasyGPT Python CUDA
开发语言·人工智能·python
数据知道30 分钟前
claw-code 源码详细分析:`reference_data` JSON 快照——大型移植里「对照底稿」该怎么治理与演进?
linux·python·ubuntu·json·claude code