大数据之LibrA数据库系统告警处理(ALM-12028 主机D状态进程数超过阈值)

告警解释

系统每30秒周期性检测主机中omm用户D状态进程数,并把实际进程数和阈值相比较。主机D状态进程数默认提供一个阈值范围。当检测到进程数超出阈值范围时产生该告警。

平滑次数为1,主机中omm用户D状态进程数小于或等于阈值时,告警恢复;平滑次数大于1,主机中omm用户D状态进程数小于或等于阈值的90%时,告警恢复。

告警属性
告警ID 告警级别 可自动清除
12028 严重
告警参数
参数名称 参数含义
ServiceName 产生告警的服务名称。
RoleName 产生告警的角色名称。
HostName 产生告警的主机名。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
对系统的影响

占用系统资源,业务进程响应变慢。

可能原因

主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态。

处理步骤

查看D状态进程。

  1. 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址。

  2. 使用PuTTY工具登录产生告警主机,执行su - omm 命令,切换到omm用户。

  3. 执行如下命令查看omm用户D状态进程号。

    ps -elf | grep -v "\thread_checkio\\" | awk 'NR!=1 {print 2, 3, 4}' \| grep omm \| awk -F' ' '{print 1, 3}' \| grep D \| awk '{print 2}'

  4. 查看结果是否为空。

    • 是,业务进程正常,执行[步骤 6](#步骤 6)。
    • 否,执行[步骤 5](#步骤 5)。
  5. 切换到root 用户,执行reboot命令,重启产生告警主机(重启主机有风险,请确保重启后业务进程正常)。

  6. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行[步骤 7](#步骤 7)。

收集故障信息。

  1. 在FusionInsight Manager界面,单击"系统设置 > 日志下载"。
  2. 在"服务"下拉框中勾选"Manager",单击"确定"。
  3. 设置日志收集的"开始时间"和"结束时间"分别为告警产生时间的前后1小时,单击"下载"。
相关推荐
数据库小学妹几秒前
MySQL ORDER BY 深度解析:Using temporary 与 Using filesort 的底层机制及索引优化实战
数据库·经验分享·mysql·性能优化·dba
AI人工智能+电脑小能手18 分钟前
【大白话说Java面试题 第93题】【Mysql篇】第23题:从查找速度来看,聚集索引和非聚集索引哪个更快?
java·开发语言·数据库·mysql·面试
WPF工业上位机35 分钟前
YXGK.FakeVM数据库示例
jvm·数据库·oracle
牛奔1 小时前
如何让 GORM 打印 SQL 语句?三种方式全解析
数据库·sql
XWalnut1 小时前
Redis从入门到精通
数据库·redis·缓存
LZZ and MYY1 小时前
RTS 在windows和Linux之间ShareMem
linux·运维·服务器
爱学习的徐徐1 小时前
Linux 基础IO
linux·服务器
andafaAPS1 小时前
安达发|工艺品aps自动排产排程排单软件:告别生产“一团乱麻“
大数据·数据库·人工智能·安达发aps·计划排产软件·自动排单软件
蛋蛋的学习记录1 小时前
C#窗体应用中使用EasyModbusCore通讯
服务器·c#·tcp
zt1985q1 小时前
本地部署源代码管理解决方案 Bitbucket Data Center 并实现外部访问
运维·服务器·数据库·网络协议·postgresql·源代码管理