AI服务器工作之电源测试

hello,大家好,今天是1024程序员节。最近开启的专栏关于AI服务器工作的可能要停更一些时间,可能只是短短一个周末,在整个过程中,我很热爱我的工作,可能是由于对未知的探索,也可能是所谓的热爱。希望大家都可以工作顺利,记录我的工作日常。

四个电源

cpu加压

启动 4 个进程消耗 CPU 资源

可以使用top命令查看进程资源占用情况

GPU加压

内存满负载

风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

系统下电源识别正常:

++系统日志未出现报错信息,表示电源正常++

拔掉槽位1电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:65℃

Ipmi下电源输出情况:

++0*9++ ++表示不在位++

拔掉电源线,模块还在位时

++表示无输出和输出电压++

拔掉插槽1电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位2电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽2电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位3电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽3源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位4电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽4模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

多次插拔电源

插拔电源模块10次,负载下电源功率输出正常,日志统计正常。

相关推荐
数据皮皮侠AI5 天前
顶刊同款!中国地级市风灾风险与损失数据集(2000-2022)|灾害 / 环境 / 经济研究必备
大数据·人工智能·笔记·能源·1024程序员节
Fab1an6 天前
Busqueda——Hack The Box 靶机
linux·服务器·学习·1024程序员节
技术专家7 天前
Stable Diffusion系列的详细讨论 / Detailed Discussion of the Stable Diffusion Series
人工智能·python·算法·推荐算法·1024程序员节
学传打活9 天前
古代汉语是源,现代汉语是流,源与流一脉相承。
微信公众平台·1024程序员节·汉字·中华文化
学传打活14 天前
【边打字.边学昆仑正义文化】_19_星际生命的生存状况(1)
微信公众平台·1024程序员节·汉字·昆仑正义文化
unable code21 天前
[HNCTF 2022 WEEK2]ez_ssrf
网络安全·web·ctf·1024程序员节
unable code22 天前
[NISACTF 2022]easyssrf
网络安全·web·ctf·1024程序员节
unable code23 天前
BUUCTF-[第二章 web进阶]SSRF Training
网络安全·web·ctf·1024程序员节
开开心心就好24 天前
进程启动瞬间暂停工具,适合调试多开
linux·运维·安全·pdf·智能音箱·智能手表·1024程序员节
仰泳之鹅25 天前
【51单片机】第一课:单片机简介与软件安装
单片机·嵌入式硬件·51单片机·1024程序员节