ORACLE EXADATA的CPU P1 主核心cores 瞬间临时无法被固件注册MCA控制器引起的重启问题分析

ORACLE EXADATA一体机系统节点1在12月6日上午9点27分出现异常后发生主机重启。一体机环境上采用集群架构,运行的是医院最核心的CIS业务系统;节点1发生重启后,业务可以转移到节点2上运行。

工程师在接到接到故障支持电话后,及时进行响应,及时对系统状态进行检查,确定业务已经恢复正常;之后继续深入分析,查找节点1重启的根本原因;经深入分析以及协调ORACLE 二线技术支持,确认为CPU P1 主核心cores 瞬间临时无法被固件注册MCA控制器,重启后系统恢复正常;根据排查过程汇总整理此文档。

  • 节点1重启问题分析
    1. 数据库集群及DB日志信息

通过对操作系统日志及数据库日志的分析,可以发现在故障前,系统均在正常运行,未出现异常信息。相关日志如下:

S节点1集群及数据库日志:

1.集群日志,突然重启

2021-10-28 16:38:11.373 [SRVM(383018)]CRS-10051: CVU found following errors with Clusterware setup : PRVF-5410 : Check of common NTP Time Server failed

PRVF-5416 : Query of NTP daemon failed on all nodes

PRVF-5410 : Check of common NTP Time Server failed

PRVF-5416 : Query of NTP daemon failed on all nodes

PRCW-1015 : Wallet orcl does not exist.

CLSW-9: The cluster wallet to be operated on does not exist. :[1015]

PRCW-1015 : Wallet orcl does not exist.

CLSW-9: The cluster wallet to be operated on does not exist. :[1015]

2021-12-06 09:46:19.860 [OHASD(19894)]CRS-8500: Oracle Clusterware OHASD process is starting with operating system process ID 19894 ====重启集群软件的信息

2021-12-06 09:46:19.877 [OHASD(19894)]CRS-0714: Oracle Clusterware Release 12.1.0.2.0.

2021-12-06 09:46:19.915 [OHASD(19894)]CRS-2112: The OLR service started on node dyyy-dbadm01.

2021-12-06 09:46:19.987 [OHASD(19894)]CRS-1301: Oracle High Availability Service started on node

2.数据库日志,突然重启

Mon Dec 06 09:38:22 2021

LNS: Standby redo logfile selected for thread 1 sequence 61537 for destination LOG_ARCHIVE_DEST_2

Mon Dec 06 09:38:22 2021

LNS: Standby redo logfile selected for thread 1 sequence 61537 for destination LOG_ARCHIVE_DEST_3

Mon Dec 06 09:38:23 2021

Archived Log entry 246138 added for thread 1 sequence 61536 ID 0x5f59d953 dest 1:

Mon Dec 06 09:47:40 2021

Starting ORACLE instance (normal) ===重启前日志正常

************************ Large Pages Information *******************

Per process system memlock (soft) limit = UNLIMITED

Total Shared Global Region in Large Pages = 248 GB (100%)

3.OS日志:

Dec 5 03:06:13 dyyy-dbadm01 LSI MegaRAID SNMP Agent: Agent Ver 3.18.0.2 (Oct 30th, 2012) Started

Dec 5 03:06:13 dyyy-dbadm01 kernel: [19249636.999436] megaraid_sas 0000:23:00.0: Application firmware crash dump mode set success

Dec 5 03:06:13 dyyy-dbadm01 kernel: [19249637.370922] megaraid_sas 0000:23:00.0: Application firmware crash dump mode set success

Dec 5 16:02:25 dyyy-dbadm01 auditd[12165]: Audit daemon rotating log files

Dec 6 03:06:12 dyyy-dbadm01 LSI MegaRAID SNMP Agent: Agent Ver 3.18.0.2 (Oct 30th, 2012) Stopped

Dec 6 03:06:12 dyyy-dbadm01 LSI MegaRAID SNMP Agent: Agent Ver 3.18.0.2 (Oct 30th, 2012) Stopped

Dec 6 03:06:12 dyyy-dbadm01 LSI MegaRAID SNMP Agent: Agent Ver 3.18.0.2 (Oct 30th, 2012) Started

Dec 6 03:06:12 dyyy-dbadm01 LSI MegaRAID SNMP Agent: Agent Ver 3.18.0.2 (Oct 30th, 2012) Started

Dec 6 03:06:13 dyyy-dbadm01 kernel: [19336122.769755] megaraid_sas 0000:23:00.0: Application firmware crash dump mode set success

Dec 6 03:06:13 dyyy-dbadm01 kernel: [19336122.771358] megaraid_sas 0000:23:00.0: Application firmware crash dump mode set success

Dec 6 03:07:05 dyyy-dbadm01 kernel: [19336174.787057] megaraid_sas 0000:23:00.0: Application firmware crash dump mode set success

Dec 6 09:43:09 dyyy-dbadm01 kernel: imklog 5.8.10, log source = /proc/kmsg started. ========>>>>启动日志

Dec 6 09:43:09 dyyy-dbadm01 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="12564" x-info="http://www.rsyslog.com"] start

Dec 6 09:43:09 dyyy-dbadm01 kernel: [ 0.000000] Initializing cgroup subsys cpuset

Dec 6 09:43:09 dyyy-dbadm01 kernel: [ 0.000000] Initializing cgroup subsys cpu

Dec 6 09:43:09 dyyy-dbadm01 kernel: [ 0.000000] Initializing cgroup subsys cpuacct

Dec 6 09:43:09 dyyy-dbadm01 kernel: [ 0.000000] Linux version 4.1.12-61.33.1.el6uek.x86_64 (mockbuild@x86-ol6-builder-04) (gcc version 4.4.7 20120313 (Red Hat 4.4

.7-16) (GCC) ) #2 SMP Tue Mar 14 13:16:51 PDT 2017

Dec 6 09:43:09 dyyy-dbadm01 kernel: [ 0.000000] Command line: root=LABEL=DBSYS bootarea=dbsys bootfrom=BOOT ro loglevel=7 panic=60 debug pci=noaer log_buf_len=1m

nmi_watchdog=0 transparent_hugepage=never rd_NO_PLYMOUTH audit=1 console=tty1 console=ttyS0,115200n8 crashkernel=448M@128M numa=on

    1. 故障前的系统负载

检查故障前的系统负载,CPU使用率在30%以下,未出现高负载情况:

    1. ILOM中系统信息的分析

检查ILOM硬件管理平台中的相关信息,可以发现提示了CPU P1的相关错误:

    1. 重启后硬件状态正常

在发生重启后,检查ILOM硬件管理平台的信息,各硬件状态均正常。

  • 总结与后续处理建议
    1. 节点1重启问题分析总结

通过对相关日志的分析,可以得出结论:

  1. 主机层面未出现高CPU负载的情况,相关日志显示是系统突然重启,重启前无相关报错。
  2. 分析硬件日志,当前CPU P1 主核心cores 瞬间临时无法被固件注册MCA控制器,因此触发硬件重启机制。主机重启后所有硬件状态恢复正常。
    1. 后续建议

目前分析本次异常重启是由于CPU P1 主核心cores 瞬间临时无法被固件注册MCA控制器,因此触发硬件重启机制。主机重启后所有硬件状态恢复正常。因此建议近期持续观察系统硬件运行及告警信息情况;如短期内再次出现类似情况,则需要更换出现过异常的CPU 。

相关推荐
知识分享小能手2 小时前
MongoDB入门学习教程,从入门到精通,MongoDB从应用程序连接副本集(12)
数据库·学习·mongodb
你才是臭弟弟2 小时前
MongoDB Community Server (社区版)安装流程
数据库·mongodb
X-⃢_⃢-X2 小时前
四、索引的创建与设计原则
数据库·mysql
你才是臭弟弟2 小时前
MongoDB介绍
数据库·mongodb
努力打怪升级2 小时前
使用 pymssql 连接数据库(GBK 编码)乱码问题的完美解决方案
数据库
却话巴山夜雨时i2 小时前
互联网大厂Java面试场景:从Spring到微服务的逐层提问
java·数据库·spring·微服务·日志·性能监控
oradh2 小时前
Oracle数据库网络体系结构概述
数据库·oracle·数据库基础·数据库入门·oracle网络基础
满天星83035773 小时前
【MySQL】表的基本查询(上)
linux·服务器·数据库·mysql
主角1 73 小时前
MySQL高可用集群
数据库·mysql