GPU卡在空闲时使用率异常的处理

问题

NVIDIA的Tesla A100型号GPU卡在安装完驱动,使用了一段时间后,发现运行nvidia-smi的GPU-

util一直有一块处于25%的使用率,但此时并没有任何工作负载。

解决办法

如下设置:

bash 复制代码
sudo nvidia-smi -pm 1  

这个命令用于启用 NVIDIA GPU 的持久化模式。

什么是持久化模式

在默认下,在没有程序使用GPU卡时,NVIDIA 驱动程序会卸载一部分内核模块以节省资源。持久化模式的作用就是让 GPU驱动程序始终保持加载状态,即使没有任何程序在使用 GPU。

这样做的好处是提升性能稳定性,避免了因驱动程序频繁加载和卸载可能带来的性能波动或异常问题。

要检查环境中是否已经配置了持久化,可以使用命令

bash 复制代码
nvidia-smi -q | grep "Persistence Mode"  

在返回的信息中查找"Persistence Mode"这一项。

🔥运维干货分享

相关推荐
itachi-uchiha5 分钟前
通识性AI知识点:AI工具选型指南
ai
我很哇塞耶8 分钟前
2025年加倍投入AI的九大品牌
大数据·人工智能·ai·大模型
芷栀夏9 分钟前
AI Ping新旗舰模型实战解析:GLM-4.7与MiniMax M2.1
人工智能·ai·ai编程
视觉&物联智能17 分钟前
【杂谈】-自动化优先于人工智能:为智能系统筑牢安全根基
人工智能·安全·ai·自动化·aigc·agi·deepseek
阿杰学AI26 分钟前
AI核心知识66——大语言模型之Machine Learning (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ml·机械学习
Elastic 中国社区官方博客1 小时前
使用 Elasticsearch 的 Profile API 对比 dense vector 搜索性能
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
腾讯WeTest11 小时前
范式转移:LLM如何重塑游戏自动化测试的底层逻辑
功能测试·游戏·ai·腾讯wetest
小北方城市网11 小时前
第 6 课:Vue 3 工程化与项目部署实战 —— 从本地开发到线上发布
大数据·运维·前端·ai
哥布林学者12 小时前
吴恩达深度学习课程四:计算机视觉 第三周:检测算法 (三)交并比、非极大值抑制和锚框
深度学习·ai
我很哇塞耶12 小时前
OpenAI最新发布,企业级AI智能体的强化微调实践
人工智能·ai·大模型