Pytorch报错RuntimeError: CUDA error: device-side assert triggered

参考:

  • https://blog.csdn.net/BetrayFree/article/details/134267306

完整报错如下:

shell 复制代码
Traceback (most recent call last):
  File "/home/yingmuzhi/SpecML2/test.py", line 150, in <module>
    trainer.fit(model, data)
  File "/home/yingmuzhi/SpecML2/core.py", line 486, in fit
    self.fit_epoch()
  File "/home/yingmuzhi/SpecML2/core.py", line 496, in fit_epoch
    loss = self.model.training_step(self.prepare_batch(batch))
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/yingmuzhi/SpecML2/core.py", line 394, in training_step
    self.plot('loss', l, train=True)
  File "/home/yingmuzhi/SpecML2/core.py", line 384, in plot
    self.board.draw(x, value.to(cpu()).detach().numpy(),
                       ^^^^^^^^^^^^^^^
RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

有很多愿意会导致这个CUDA triggered的Error,我的问题是在于网络前半部分都是卷积层,在最后一层使用了全连接层,而在最后一层我的输出并没有和类别相匹配。例如,原先多分类我用的是十个类别,更改成二十二种类别后忘记改输出的类别了,将类别和输出channel相匹配便解决了。

相关推荐
Esaka_Forever1 分钟前
Python 完整内存管理机制详解
开发语言·python·spring
Token炼金师2 分钟前
目标的抉择:CLM 称王、MLM 退场、FIM 补刀、多 Token 与多语 —— 预训练目标五辩
人工智能·深度学习·预训练·clm·mlm·fim·mtp
星马梦缘6 分钟前
机器学习与模式识别 第十三章 从线性模型到神经网络 考点压缩
人工智能·pytorch·神经网络·机器学习·激活函数·relu
大鱼>11 分钟前
深度学习入门:神经网络原理与 PyTorch 实战
pytorch·深度学习·神经网络
one_love_zfl11 分钟前
Claude Code 隐私检测事件情况说明及升级指南
人工智能
格子软件14 分钟前
2026年分布式GEO代理流量调度:源码级状态机防重挂实战
java·vue.js·人工智能·spring boot·分布式·vue
小柒儿33615 分钟前
量子通信产业化:从保密通信到全域应用,重构信息安全底层体系
人工智能·重构
手写码匠21 分钟前
手写 LLM 安全护栏:从内容审核到越狱防御的完整实现
人工智能·深度学习·算法·aigc
AI科技星21 分钟前
乖乖数学全域数学加速正电荷会产生反向引力
人工智能·机器学习·概率论·量子计算·乖乖数学·全域数学·引力
大囚长23 分钟前
信息约简对智能系统预测的重要性
人工智能·深度学习·机器学习