AI服务器工作之电源测试

hello,大家好,今天是1024程序员节。最近开启的专栏关于AI服务器工作的可能要停更一些时间,可能只是短短一个周末,在整个过程中,我很热爱我的工作,可能是由于对未知的探索,也可能是所谓的热爱。希望大家都可以工作顺利,记录我的工作日常。

四个电源

cpu加压

启动 4 个进程消耗 CPU 资源

可以使用top命令查看进程资源占用情况

GPU加压

内存满负载

风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

系统下电源识别正常:

++系统日志未出现报错信息,表示电源正常++

拔掉槽位1电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU tcase: 87℃

CPU 1:64℃ CPU 2:65℃

Ipmi下电源输出情况:

++0*9++ ++表示不在位++

拔掉电源线,模块还在位时

++表示无输出和输出电压++

拔掉插槽1电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位2电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽2电源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位3电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽3源模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

拔掉槽位4电源

CPU、硬盘满负载,风扇全速

系统下CPU温度:

CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽4模块后

++BMC++ ++下不显示,失去电源信息++

++系统日志未出现报错信息,表示电源正常++

多次插拔电源

插拔电源模块10次,负载下电源功率输出正常,日志统计正常。

相关推荐
爱喝水的鱼丶1 天前
SAP-ABAP:SAP概述:数据处理的系统、应用与产品
运维·学习·sap·abap·1024程序员节
CoderJia程序员甲2 天前
GitHub 热榜项目 - 日榜(2025-11-13)
ai·开源·github·1024程序员节·ai教程
小坏讲微服务3 天前
MaxWell中基本使用原理 完整使用 (第一章)
大数据·数据库·hadoop·sqoop·1024程序员节·maxwell
liu****3 天前
18.HTTP协议(一)
linux·网络·网络协议·http·udp·1024程序员节
洛_尘3 天前
JAVA EE初阶 6: 网络编程套接字
网络·1024程序员节
2301_800256114 天前
关系数据库小测练习笔记(1)
1024程序员节
金融小师妹4 天前
基于多源政策信号解析与量化因子的“12月降息预期降温”重构及黄金敏感性分析
人工智能·深度学习·1024程序员节
GIS数据转换器4 天前
基于GIS的智慧旅游调度指挥平台
运维·人工智能·物联网·无人机·旅游·1024程序员节
南方的狮子先生5 天前
【C++】C++文件读写
java·开发语言·数据结构·c++·算法·1024程序员节
Neil今天也要学习5 天前
永磁同步电机无速度算法--基于三阶LESO的反电动势观测器
算法·1024程序员节