深度学习烦人的基础知识(2)---Nvidia-smi功率低,util高---nvidia_smi参数详解

文章目录

问题

如下图所示,GPU功率很低,Util占用率高。这个训练时不正常的!

现象解释

Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。

GPU-Util高说明它的核心被占用了,占用率为100%。

打个比方,把GPU看做是人。三个人,一个在举重,一个人在跑步,一个人在走路。他们都在运动,都是忙碌的,也就是GPU-Util占用高。但是很显然举重的,对外做功高,跑步的做功低,走路的最差,也就是GPU的耗电情况。详细此述

结论 :像是这种情况,说明GPU被占用了,但是没有实际工作 ,也就是人员到位了,在等活干,很有可能是进程等待问题,或者进程锁死了

解决方案

  1. 定位问题,方法很多,比如:打印输出,看程序卡死在哪步,即可定位。
  2. 网上找解决方案。
  3. 如果是在运行多卡训练,容易卡死的地方有:

磨刀不误砍柴工--nvidia-smi参数解读

如下所示,其表格中,有这么多参数,且参数名与值的其位置是一一对应的。我用不同颜色进行标识,同一种颜色的方框和箭头,标识出参数名和其值的位置关系。

参数名 含义 例子
GPU 显卡的本地设备号,对应值为0,1,2,3...几块显卡就有几个数
Name 显卡型号名
Persistence-M Persistence-M是一种显卡运行模式,值为on或off,代表是否开或关
Fan 与散热风扇转数有关,用百分数显示,越高说明转数越高
temp GPU核心温度,过热就有危险了,显卡要烧坏了,单位是摄氏度,如45C就是45度
Perf
Pwr:Usage/Cap GPU目前耗电多少瓦,Cap是额定功率,Usage表示当前功率,86W/300W表示满载300W,目前86W
Bus-ID 显卡总线的ID,总线是用来传输数据和指令的,是显卡与CPU,内存等硬件传输数据的线路
Disp.A 不知道
Memory-Usage 显存占用情况,大家都知道,不说了
GPU-Util GPU中计算核心目前的占用率
相关推荐
Zheng照邻、11 小时前
VLM Prompt优化之 DynaPrompt(ICLR 2025)论文总结
人工智能·算法·语言模型·prompt·aigc
CoovallyAIHub11 小时前
机器人“大脑”遭遇认知冻结攻击!复旦等提出FreezeVLA,一张图片即可瘫痪多模态大模型
深度学习·算法·计算机视觉
DisonTangor11 小时前
腾讯混元3D团队开源 P3-SAM: 原生3D零件分割
人工智能·3d·开源·aigc
AAIshangyanxiu11 小时前
基于PyTorch深度学习遥感影像地物分类与目标检测、分割及遥感影像问题深度学习优化实践技术应用
pytorch·深度学习·分类·地物分类
计算机毕设残哥11 小时前
紧跟大数据技术趋势:食物口味分析系统Spark SQL+HDFS最新架构实现
大数据·hadoop·python·sql·hdfs·架构·spark
MediaTea12 小时前
Python 编辑器:Visual Studio Code
开发语言·ide·vscode·python·编辑器
深蓝电商API12 小时前
HTML 解析入门:用 BeautifulSoup 轻松提取网页数据
前端·爬虫·python·beautifulsoup
前路不黑暗@12 小时前
Java:代码块
java·开发语言·经验分享·笔记·python·学习·学习方法
aneasystone本尊12 小时前
深入 Dify 应用的会话流程之限流策略
人工智能
盼小辉丶12 小时前
Transformer实战(20)——微调Transformer语言模型进行问答任务
人工智能·深度学习·transformer