GPU卡在空闲时使用率异常的处理

问题

NVIDIA的Tesla A100型号GPU卡在安装完驱动,使用了一段时间后,发现运行nvidia-smi的GPU-

util一直有一块处于25%的使用率,但此时并没有任何工作负载。

解决办法

如下设置:

bash 复制代码
sudo nvidia-smi -pm 1  

这个命令用于启用 NVIDIA GPU 的持久化模式。

什么是持久化模式

在默认下,在没有程序使用GPU卡时,NVIDIA 驱动程序会卸载一部分内核模块以节省资源。持久化模式的作用就是让 GPU驱动程序始终保持加载状态,即使没有任何程序在使用 GPU。

这样做的好处是提升性能稳定性,避免了因驱动程序频繁加载和卸载可能带来的性能波动或异常问题。

要检查环境中是否已经配置了持久化,可以使用命令

bash 复制代码
nvidia-smi -q | grep "Persistence Mode"  

在返回的信息中查找"Persistence Mode"这一项。

🔥运维干货分享

相关推荐
Elastic 中国社区官方博客1 小时前
Elastic 与 Accenture 在 GenAI 数据准备方面的合作
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·aws
Yan-英杰3 小时前
openEuler 25.09 VM虚拟机实测:性能与安全双维度测评
服务器·开发语言·科技·ai·大模型
逻极3 小时前
从“炼丹”到“炼钢”:我们如何将机器学习推理服务吞吐量提升300%
机器学习·ai·scikit-learn
阿杰学AI3 小时前
AI核心知识31——大语言模型之Multimodal Understanding(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·embedding·多模态理解
带刺的坐椅4 小时前
Solon AI 开发学习11 - chat - 工具调用与定制(Tool Call)
java·ai·llm·solon
小雨青年14 小时前
MateChat 进阶实战:打造零后端、隐私安全的“端侧记忆”智能体
前端·华为·ai·华为云·状态模式
paopao_wu17 小时前
腾讯HunyuanOCR开源端到端OCR-1B:本地部署与测试
ai·开源·ocr·hunyuan
带刺的坐椅18 小时前
Solon AI 开发学习10 - chat - 工具调用概念介绍
ai·llm·solon·tool-call
蓝耘智算21 小时前
如何选择合适的GPU算力服务商?企业AI算力采购指南
ai·gpu算力·蓝耘