告警解释
当集群中的CN实例或者DN实例锁文件创建失败时,产生该告警。
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
37014 | 严重 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称 |
RoleName | 产生告警的角色名称 |
HostName | 产生告警的主机名 |
Instance | 产生告警的实例 |
对系统的影响
发生数据库锁文件创建失败时,锁文件创建失败的实例可能无法启动,集群将无法正常启动。
可能原因
系统数据实例异常终止,导致系统中存在锁文件残留。
处理步骤
- 使用omm用户登录告警上报的节点。
- 初始化环境变量。 source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
-
执行如下命令获取出现告警的主机和数据实例的数据目录。(如下主机为10.252.153.218,数据目录为/srv/BigData/mppdb/data1/coordinator)
-
使用SSH方式登录上述主机,执行如下命令进入目录并检查是否存在postmaster.pid文件。
-
执行如下命令获取postmaster.pid文件中第一行的pid。
-
执行如下命令查看上述pid对应的进程是否存在。
ps -ef |grep 42883
omm 42883 1 4 Nov05 ? 17:25:59 /opt/huawei/Bigdata/mppdb/core/bin/gaussdb --coordinator -D /srv/BigData/mppdb/data1/coordinator omm 125791 55322 0 15:10 pts/0 00:00:00 grep --color=auto 42883
-
执行如下命令终止上述进程,并删除postmaster.pid文件后查看告警是否恢复。
- 是,处理完毕。
- 否,执行8。
-
在FusionInsight Manager界面,单击"系统设置 > 日志下载"。
-
在"服务"下拉框中勾选"MPPDB",单击"确定"。
-
设置日志收集的"开始时间"和"结束时间"分别为告警产生时间的前后1小时,单击"下载"。