GPU卡在空闲时使用率异常的处理

问题

NVIDIA的Tesla A100型号GPU卡在安装完驱动,使用了一段时间后,发现运行nvidia-smi的GPU-

util一直有一块处于25%的使用率,但此时并没有任何工作负载。

解决办法

如下设置:

bash 复制代码
sudo nvidia-smi -pm 1  

这个命令用于启用 NVIDIA GPU 的持久化模式。

什么是持久化模式

在默认下,在没有程序使用GPU卡时,NVIDIA 驱动程序会卸载一部分内核模块以节省资源。持久化模式的作用就是让 GPU驱动程序始终保持加载状态,即使没有任何程序在使用 GPU。

这样做的好处是提升性能稳定性,避免了因驱动程序频繁加载和卸载可能带来的性能波动或异常问题。

要检查环境中是否已经配置了持久化,可以使用命令

bash 复制代码
nvidia-smi -q | grep "Persistence Mode"  

在返回的信息中查找"Persistence Mode"这一项。

🔥运维干货分享

相关推荐
java1234_小锋2 小时前
AI蒸馏技术:让AI更智能、更高效
人工智能·ai·ai蒸馏
virtaitech2 小时前
云平台一键部署【Step-1X-3D】3D生成界的Flux
人工智能·科技·ai·gpu·算力·云平台
Elastic 中国社区官方博客2 小时前
jina-embeddings-v3 现已在 Elastic Inference Service 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·jina
m0_603888713 小时前
More Images, More Problems A Controlled Analysis of VLM Failure Modes
人工智能·算法·机器学习·ai·论文速览
村口曹大爷4 小时前
Aider-TUI: The Professional AI Pair Programming Shell
人工智能·ai·code·aider
lkbhua莱克瓦245 小时前
稠密、稀疏与MoE:大模型时代的三重架构革命
人工智能·深度学习·机器学习·ai·架构
寻星探路6 小时前
【算法进阶】滑动窗口与前缀和:从“和为 K”到“最小覆盖子串”的极限挑战
java·开发语言·c++·人工智能·python·算法·ai
基层小星7 小时前
用ai写完材料有个差不多后,材料星如何精准修改润色?
人工智能·ai·ai写作·笔杆子·公文写作·修改润色
图生生7 小时前
跨境电商图片翻译痛点解决:AI工具实现多语言适配一键生成
人工智能·ai
赋创小助手8 小时前
超微 SYS-E403-14B-FRN2T 深度解析:面向边缘与 IoT 场景的高扩展紧凑型服务器
运维·服务器·人工智能·科技·物联网·ai·边缘计算