AI服务器工作之电源测试

hello,大家好,今天是1024程序员节。最近开启的专栏关于AI服务器工作的可能要停更一些时间,可能只是短短一个周末,在整个过程中,我很热爱我的工作,可能是由于对未知的探索,也可能是所谓的热爱。希望大家都可以工作顺利,记录我的工作日常。

四个电源

cpu加压

启动 4 个进程消耗 CPU 资源

可以使用top命令查看进程资源占用情况

GPU加压

内存满负载

风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

系统下电源识别正常:

++系统日志未出现报错信息,表示电源正常++

拔掉槽位1电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:65℃

Ipmi下电源输出情况:

++0*9++ ++表示不在位++

拔掉电源线,模块还在位时

++表示无输出和输出电压++

拔掉插槽1电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位2电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽2电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位3电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽3源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位4电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽4模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

多次插拔电源

插拔电源模块10次,负载下电源功率输出正常,日志统计正常。

相关推荐
爱奥尼欧10 小时前
【Linux笔记】网络部分——基于Socket套接字实现最简单的HTTP协议服务器
1024程序员节
hazy1k10 小时前
51单片机基础-I²C通信与EEPROM读写
c语言·stm32·单片机·嵌入式硬件·51单片机·1024程序员节
theOtherSky10 小时前
element+vue3 table上下左右键切换input和select
javascript·vue.js·elementui·1024程序员节
西西学代码11 小时前
Flutter---CupertinoPicker滚动选择器
1024程序员节
colus_SEU11 小时前
【计算机网络笔记】第一章 计算机网络导论
笔记·计算机网络·1024程序员节
请你喝好果汁64111 小时前
ArchR——TSS_by_Unique_Frags.pdf
1024程序员节
安当加密11 小时前
如何通过掌纹识别实现Windows工作站安全登录:从技术原理到企业级落地实践
windows·安全·1024程序员节
m0_5642641811 小时前
SEO优化策略:从入门到精通的排名提升指南
搜索引擎·1024程序员节·seo策略
小涵12 小时前
企业SRE/DevOps向的精通Linux课程培训课程
linux·运维·devops·1024程序员节