GPU卡在空闲时使用率异常的处理

问题

NVIDIA的Tesla A100型号GPU卡在安装完驱动,使用了一段时间后,发现运行nvidia-smi的GPU-

util一直有一块处于25%的使用率,但此时并没有任何工作负载。

解决办法

如下设置:

bash 复制代码
sudo nvidia-smi -pm 1  

这个命令用于启用 NVIDIA GPU 的持久化模式。

什么是持久化模式

在默认下,在没有程序使用GPU卡时,NVIDIA 驱动程序会卸载一部分内核模块以节省资源。持久化模式的作用就是让 GPU驱动程序始终保持加载状态,即使没有任何程序在使用 GPU。

这样做的好处是提升性能稳定性,避免了因驱动程序频繁加载和卸载可能带来的性能波动或异常问题。

要检查环境中是否已经配置了持久化,可以使用命令

bash 复制代码
nvidia-smi -q | grep "Persistence Mode"  

在返回的信息中查找"Persistence Mode"这一项。

🔥运维干货分享

相关推荐
苏渡苇4 小时前
DeepSeek V4 实战:自然语言生成 SQL + 智能优化引擎
ai·springboot·spring ai·deepseek·ai推理·deepseek v4·自然语言生成sql
草履虫君4 小时前
若用wsL方式安装openclaw 就不需要安装win原生的node和git
经验分享·git·ai
程序员鱼皮4 小时前
小米送了我 16 亿 tokens,给我测爽了!手把手教你领取 | 附 Claude Code + MiMo-V2.5 实战测评
计算机·ai·程序员·编程·ai编程
秒云4 小时前
MIAOYUN | 每周AI新鲜事儿 260430
人工智能·ai·语言模型·aigc·ai编程
ZStack开发者社区4 小时前
ZStack dGPU:让虚拟机里的 GPU 也能按需切分
云计算·gpu算力
码途漫谈5 小时前
Easy-Vibe开发篇阅读笔记(十二)——后端开发之如何集成Stripe等收费系统
笔记·ai·开源·状态模式·ai编程
PM老周5 小时前
AI时代项目管理工具体验测评:功能效率协作与研发团队选型
ai·aigc·团队开发·ai编程
暮色念了红尘5 小时前
CC Switch — Ubuntu 20.04 可用版本
ubuntu·ai·rust·ubuntu 20.04·vibe coding·cc swich
Irissgwe5 小时前
LangChain之核心组件(消息与提示词模板)
人工智能·ai·langchain·llm·langgraph
码途漫谈5 小时前
Easy-Vibe开发篇阅读笔记(十三)——附录之用 Dify 搭建知识库问答系统
笔记·ai·开源·ai编程