AI服务器工作之电源测试

hello,大家好,今天是1024程序员节。最近开启的专栏关于AI服务器工作的可能要停更一些时间,可能只是短短一个周末,在整个过程中,我很热爱我的工作,可能是由于对未知的探索,也可能是所谓的热爱。希望大家都可以工作顺利,记录我的工作日常。

四个电源

cpu加压

启动 4 个进程消耗 CPU 资源

可以使用top命令查看进程资源占用情况

GPU加压

内存满负载

风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

系统下电源识别正常:

++系统日志未出现报错信息,表示电源正常++

拔掉槽位1电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:65℃

Ipmi下电源输出情况:

++0*9++ ++表示不在位++

拔掉电源线,模块还在位时

++表示无输出和输出电压++

拔掉插槽1电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位2电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽2电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位3电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽3源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位4电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽4模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

多次插拔电源

插拔电源模块10次,负载下电源功率输出正常,日志统计正常。

相关推荐
开开心心就好1 天前
开源免费高速看图工具,支持漫画大图秒开
linux·运维·服务器·安全·ruby·symfony·1024程序员节
unable code4 天前
磁盘取证-Flying_High
网络安全·ctf·misc·1024程序员节·磁盘取证
unable code5 天前
磁盘取证-ColorfulDisk
网络安全·ctf·misc·1024程序员节·内存取证
unable code6 天前
磁盘取证-[第十章][10.1.2 磁盘取证方法]磁盘取证1
网络安全·ctf·misc·1024程序员节·内存取证
开开心心就好7 天前
免费抽奖工具支持批量导入+自定义主题
linux·运维·服务器·macos·pdf·phpstorm·1024程序员节
开开心心就好11 天前
卸载工具清理残留,检测垃圾颜色标识状态
linux·运维·服务器·python·安全·tornado·1024程序员节
子燕若水12 天前
Facebook reels 运营指南
1024程序员节
尘觉15 天前
创作 1024 天|把热爱写成长期主义
数据库·1024程序员节
写点什么呢16 天前
Word使用记录
word·1024程序员节
开开心心就好16 天前
内存清理工具点击清理,自动间隔自启
linux·运维·服务器·安全·硬件架构·材料工程·1024程序员节