华为openUBMC/长江计算 BMC服务器日志分析

BMC为长江计算的BMC产品,源自于华为设立的openUBMC


电源故障分析

先看AppDump/event下的current_event.txt

看到目前没有告警

复制代码
System in health state.

说明告警已经消除了,看下历史告警sel.txt

发现历史有多次PSU1的故障告警,且每次都是持续70秒左右

复制代码
66      |2026-06-24 00:09:32 |Critical    |0x0300000E  |Deasserted  |The AC/DC input of PSU 1 is lost or out-of-range.
65      |2026-06-24 00:08:20 |Critical    |0x0300000D  |Asserted    |The AC/DC input of PSU 1 is lost or out-of-range.
64      |2026-06-23 00:41:16 |Critical    |0x0300000E  |Deasserted  |The AC/DC input of PSU 1 is lost or out-of-range.
63      |2026-06-23 00:40:03 |Critical    |0x0300000D  |Asserted    |The AC/DC input of PSU 1 is lost or out-of-range.

40      |2026-06-12 04:06:39 |Critical    |0x0300000E  |Deasserted  |The AC/DC input of PSU 1 is lost or out-of-range.
39      |2026-06-12 04:05:27 |Critical    |0x0300000D  |Asserted    |The AC/DC input of PSU 1 is lost or out-of-range.
38      |2026-06-12 00:46:58 |Critical    |0x0300000E  |Deasserted  |The AC/DC input of PSU 1 is lost or out-of-range.
37      |2026-06-12 00:45:44 |Critical    |0x0300000D  |Asserted    |The AC/DC input of PSU 1 is lost or out-of-range.

到AppDump\power_mgmt的psu_info.txt看下当前PSU电压

一切OK

复制代码
Slot   |  presence  |  Manufacturer     |  Type                              |  SN                                |  Version                    |  Rated Power   |  InputMode  |  PartNum           |  DeviceName        |  Vin       |  Vout    
1      |  present   |  HUAWEI           |  PAC2000S12-B1                     |  xxxxxxxxxxxxxxxxxxxx              |  DC:111 PFC:111             |  2000          |  AC        |  xxxxxxxx          |  PSU1              |  225.00    |  12.00   
2      |  present   |  HUAWEI           |  PAC2000S12-B1                     |  xxxxxxxxxxxxxxxxxxxx              |  DC:111 PFC:(QB)111         |  2000          |  DC        |  xxxxxxxx          |  PSU2              |  270.00    |  12.00   

看下告警时间电源情况AppDump\power_strategy下的power_statistics.csv

没办法精准采集到这个时间段

这个时候就要结合外部情况来判断了

比如问下客户,告警临近时间有没有人员在施工,或者机柜在倒换测试什么的

相邻设备有没有类似告警,因为告警提示的是lost or out-of-range并非fault/fail,并且每次都是告警70秒后自动恢复

不排除也有误告警的可能性存在

如果允许可以联系电源厂商进行深度分析

或者保险起见,直接更换电源模块与电源线


CPU高温告警

一样,先看当前告警

先看AppDump/event下的current_event.txt

看到目前没有告警

复制代码
System in health state.

然后再看sel日志,发现cpu2有一个瞬时高温告警

复制代码
ID      |Generation Time     |Severity    |Event Code  |Status      |Event Description
66      |2026-06-20 22:29:04 |Major       |0x00000004  |Deasserted  |CPU 2(CpuBoard1 CPU2) temperature is too high and will be underclocked.
65      |2026-06-20 22:29:03 |Major       |0x00000003  |Asserted    |CPU 2(CpuBoard1 CPU2) temperature is too high and will be underclocked.

我们可以再去看下cpu的温度情况AppDump\sensor下的sensor_info.txt

目前的温度很正常,才40多,距离110的阈值差远了

复制代码
sensor id  | sensor name      | value      | unit         | status | lnr        | lc         | lnc        | unc      | uc         | unr        | phys   | nhys  
0x42       | CPU1_Temp        | 44.000     | degrees C    | ok     | na         | na         | na         | 105.000  | 110.000    | na         | 2.000  | 2.000 
0x4b       | CPU2_Temp        | 42.000     | degrees C    | ok     | na         | na         | na         | 105.000  | 110.000    | na         | 2.000  | 2.000 

但是我们发现一个不太正常的数据

这个PCIE5网卡(实际上是DPU智能网卡),温度高达91,距离阈值差9度

如果某个时刻负荷加大,或者周围环境的温度变高(比如有人施工打开了机柜门),就有可能出发告警

复制代码
0x73       | PCIe5 INIC CPU_Temp | 91.000     | degrees C    | ok     | na         | na         | na         | 100.000  | na         | na         | 2.000  | 2.000 

所以很有可能和这个DPU卡有关

了解到这种服务器的业务都是跑在DPU卡上的,温度高属于正常

且只有一次瞬时告警,可以先观察,准备好备件,并让机房注意环境


说明

免责声明与版权声明

本文内容由个人发布,仅用于学习、技术研究与经验交流。

文中涉及的软件(包括正版及第三方版本)仅供测试与学习用途,不构成任何形式的分发、破解、商业使用或侵权行为的鼓励。若您需要长期使用或商业部署,请前往官方网站购买或获取正版授权。

作者不对任何软件的使用、修改、传播及由此产生的后果承担法律责任。读者应自行判断、下载与使用软件,并遵守所在地法律法规及相关许可协议。

部分内容参考或摘录自公开资料、官方文档或其他技术文章,均已尽可能注明原作者及来源链接。若原作者或版权方认为本文存在不当引用或侵权内容,请联系作者处理,作者将在核实后及时修改或删除相关内容。


知识共享许可声明

除特别说明外,本文中的原创文字、图片、图表及资料均依据:

CC BY-NC-SA 4.0(署名-非商业性使用-相同方式共享)

许可协议发布。

您可以在遵守本协议的前提下:

  • 复制、转载和分享本文内容;
  • 对本文内容进行修改、改编和二次创作;
  • 将本文内容用于个人学习、研究和非商业用途。

同时必须满足以下条件:

  • 保留原作者署名及原文链接;
  • 明确标注内容来源;
  • 不得将本文及其衍生作品用于任何商业用途;
  • 基于本文进行修改、改编或再创作的作品,必须继续采用相同协议进行发布。

特别声明

未经作者书面授权,禁止以下行为:

  • 将本文原创内容用于商业培训、付费课程、付费社群、收费咨询等商业活动;
  • 将本文原创内容转载至以盈利为目的的网站、平台、出版物或知识付费平台;
  • 将本文原创内容批量采集、镜像、聚合或作为数据库内容进行商业运营;
  • 将本文原创内容用于人工智能模型训练、知识库构建、数据集整理或其他商业化用途;
  • 删除、修改或隐藏原作者署名、原文链接及版权声明。

对于违反上述声明的行为,作者保留依法追究相关责任的权利。


AI 辅助生成声明

本文部分内容在撰写、整理、润色或结构优化过程中使用了 AI 工具进行辅助生成。

AI 生成内容仅作为写作辅助参考,最终内容已由作者进行人工审阅、修改、校对与确认。本文观点、技术步骤、命令示例及相关说明均以作者最终发布版本为准。

读者在参考本文内容进行实际操作前,应结合自身环境进行验证,作者不因 AI 辅助生成内容可能存在的遗漏、错误或不适用情况承担额外责任。