Pytorch报错RuntimeError: CUDA error: device-side assert triggered

参考:

  • https://blog.csdn.net/BetrayFree/article/details/134267306

完整报错如下:

shell 复制代码
Traceback (most recent call last):
  File "/home/yingmuzhi/SpecML2/test.py", line 150, in <module>
    trainer.fit(model, data)
  File "/home/yingmuzhi/SpecML2/core.py", line 486, in fit
    self.fit_epoch()
  File "/home/yingmuzhi/SpecML2/core.py", line 496, in fit_epoch
    loss = self.model.training_step(self.prepare_batch(batch))
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yingmuzhi/SpecML2/core.py", line 394, in training_step
    self.plot('loss', l, train=True)
  File "/home/yingmuzhi/SpecML2/core.py", line 384, in plot
    self.board.draw(x, value.to(cpu()).detach().numpy(),
                       ^^^^^^^^^^^^^^^
RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

有很多愿意会导致这个CUDA triggered的Error,我的问题是在于网络前半部分都是卷积层,在最后一层使用了全连接层,而在最后一层我的输出并没有和类别相匹配。例如,原先多分类我用的是十个类别,更改成二十二种类别后忘记改输出的类别了,将类别和输出channel相匹配便解决了。

相关推荐
蔡俊锋6 分钟前
把1500个业务的大迁移,做成了可复用流水线用 Skill+Agent+Rule,省下 60 人年的实战复盘
人工智能·skill+agent
ZGi.ai7 分钟前
AI中台和AI工具的区别:为什么说前者是基础设施而后者是应用
人工智能·chatgpt·ai工具·ai基础设施
飘落的数码折腾日记14 分钟前
OpenClaw 是什么?让 AI 真正 “动手“ 帮你干活的秘密武器
人工智能
fthux19 分钟前
用了 GitZip 这么多年,我动手做了一个「Pro」版
人工智能·开源·github
Zik----21 分钟前
DAEFR (ICLR 2024)— 盲脸超分模型解读
人工智能·python·高光谱图像·光谱恢复
TheRouter24 分钟前
Agent Harness系列(三):记忆层的3种持久化架构——从SQLite到向量库
人工智能·架构·sqlite·llm·ai-native
一切皆是因缘际会31 分钟前
从概率生成到内生心智:2026大模型瓶颈与下一代AI演进方向
人工智能·安全·ai·架构
头发够用的程序员34 分钟前
C++和Python面试经典算法汇总(一)
开发语言·c++·python·算法·容器·面试
X54先生(人文科技)35 分钟前
《元创力》纪实录·心田记釉下新声:当《纪·念》成为可聆听的星轨
人工智能·开源·ai写作·开源协议
CeshirenTester37 分钟前
字节面试官追问:“你的Agent调了三个工具就死循环了,异常处理在哪写的?”我:啊?还要写这个?
人工智能