AI服务器工作之电源测试

hello,大家好,今天是1024程序员节。最近开启的专栏关于AI服务器工作的可能要停更一些时间,可能只是短短一个周末,在整个过程中,我很热爱我的工作,可能是由于对未知的探索,也可能是所谓的热爱。希望大家都可以工作顺利,记录我的工作日常。

四个电源

cpu加压

启动 4 个进程消耗 CPU 资源

可以使用top命令查看进程资源占用情况

GPU加压

内存满负载

风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

系统下电源识别正常:

++系统日志未出现报错信息,表示电源正常++

拔掉槽位1电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:65℃

Ipmi下电源输出情况:

++0*9++ ++表示不在位++

拔掉电源线,模块还在位时

++表示无输出和输出电压++

拔掉插槽1电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位2电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽2电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位3电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽3源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位4电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽4模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

多次插拔电源

插拔电源模块10次,负载下电源功率输出正常,日志统计正常。

相关推荐
unable code1 天前
BUUCTF-[第二章 web进阶]SSRF Training
网络安全·web·ctf·1024程序员节
开开心心就好2 天前
进程启动瞬间暂停工具,适合调试多开
linux·运维·安全·pdf·智能音箱·智能手表·1024程序员节
仰泳之鹅3 天前
【51单片机】第一课:单片机简介与软件安装
单片机·嵌入式硬件·51单片机·1024程序员节
海海不瞌睡(捏捏王子)3 天前
C#知识点概要
java·开发语言·1024程序员节
小浣熊熊熊熊熊熊熊丶5 天前
飞牛NAS 安装 Teslamate 教程(docker版)
1024程序员节
程高兴5 天前
模糊PID控制的永磁同步电机矢量控制系统-SIMULINK
matlab·1024程序员节
海海不瞌睡(捏捏王子)5 天前
Unity知识点概要
unity·1024程序员节
unable code5 天前
[网鼎杯 2020 玄武组]SSRFMe
网络安全·web·ctf·1024程序员节
开开心心就好7 天前
安卓免费证件照制作软件,无广告弹窗
linux·运维·安全·pdf·迭代器模式·依赖倒置原则·1024程序员节
开开心心就好12 天前
轻量级PDF阅读器,仅几M大小打开秒开
linux·运维·服务器·安全·pdf·1024程序员节·oneflow