
问题
NVIDIA的Tesla A100型号GPU卡在安装完驱动,使用了一段时间后,发现运行nvidia-smi的GPU-
util一直有一块处于25%的使用率,但此时并没有任何工作负载。

解决办法
如下设置:
bash
sudo nvidia-smi -pm 1
这个命令用于启用 NVIDIA GPU 的持久化模式。
什么是持久化模式
在默认下,在没有程序使用GPU卡时,NVIDIA 驱动程序会卸载一部分内核模块以节省资源。持久化模式的作用就是让 GPU驱动程序始终保持加载状态,即使没有任何程序在使用 GPU。
这样做的好处是提升性能稳定性,避免了因驱动程序频繁加载和卸载可能带来的性能波动或异常问题。
要检查环境中是否已经配置了持久化,可以使用命令
bash
nvidia-smi -q | grep "Persistence Mode"
在返回的信息中查找"Persistence Mode"这一项。