最近在使用 NVIDIA GeForce RTX 2060 SUPER(8GB 显存) 进行模型训练时,训练压力稍大时(核心温度未超过 80℃),电脑会突然卡死、黑屏或画屏,必须强制重启才能恢复。
- 显卡驱动版本:
591.86 - CUDA 版本:
13.1
经过多轮排查,最终定位到了显存颗粒温度过高 这一关键原因,并通过 MSI Afterburner 进行了针对性的降频与温控优化,彻底解决了问题。
🔍 问题定位:核心温度正常≠显存温度正常
在排查过程中,我使用 TechPowerUp GPU-Z 查看了显卡的各项温度指标,发现了一个非常关键的细节:
- 显卡核心温度(Core Temp)显示在安全范围内
- 但显存颗粒温度(Memory Junction Temp) 比核心温度高出十几到二十摄氏度,在高负载训练中极易超过安全阈值,最终导致显存崩溃,触发系统黑屏 / 画屏。
⚙️ 解决方案:使用 MSI Afterburner 进行降频与温控
针对显存温度过高的问题,我通过 MSI Afterburner对显卡进行了系统性的降频与温控优化,最终让显存颗粒温度稳定在了 75℃ 左右,训练过程不再出现崩溃。
核心设置参数如下:
| 项目 | 设置值 | 说明 |
|---|---|---|
| 显存频率 (Mem MHz) | -500 MHz | 直接降低显存频率,从根源上减少显存发热 |
| 核心频率 (Core MHz) | -200 MHz | 降低核心频率,进一步降低整体功耗与发热 |
| 风扇转速 (Fan Speed) | 60% | 固定风扇转速,保证高负载下的散热效率 |
| 温度限制 (Temp Limit) | 65℃ | 限制核心温度上限,触发后显卡会自动降频 |
| 功率限制 (Power Limit) | 71% | 限制显卡功耗,从源头控制发热量 |
设置完成后,点击 Apply 保存并应用配置。(配置界面参考下图)

✅ 优化效果
经过上述设置后,再进行模型训练时:
TechPowerUp GPU-Z显示显存颗粒温度稳定在 75℃ 左右,未再出现温度骤升的情况- 电脑不再出现突然卡死、黑屏或画屏的现象,训练过程全程稳定
- 虽然频率和功耗有一定降低,但对于深度学习训练任务来说,性能损失在可接受范围内,稳定性的提升收益远大于性能损失。
💡 经验总结
591.86 这类较新的驱动,对 20 系老卡的功耗 / 温度策略可能偏激进,显存频率和电压的控制不够保守,如果觉得更换老版本驱动太麻烦,可以尝试上述方法。