大数据-之LibrA数据库系统告警处理(ALM-25005 Nscd服务异常)

告警解释

系统每60秒周期性检测nscd服务的状态,如果连续4次(3分钟)查询不到nscd进程或者无法获取ldapserver中的用户时,产生该告警。

当进程恢复且可以获取ldapserver中的用户时,告警恢复。

告警属性
告警ID 告警级别 可自动清除
25005 严重
告警参数
参数名称 参数含义
ServiceName 产生告警的服务名称。
HostName 产生告警的主机节点信息。
对系统的影响

nscd服务不可用时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。

可能原因
  • nscd服务未启动。
  • 网络故障,无法访问ldap服务器。
  • Name Service服务异常。
  • OS执行命令慢导致无法查询用户。
处理步骤

检查nscd服务是否启动。

  1. 在FusionInsight Manager界面,单击"告警管理"。记录该告警定位信息中的"HostName"的IP地址为IP1(若出现多个告警,则分别记录其中的IP地址为IP1、IP2、IP3等)。

  2. 联系运维人员,使用PuTTY工具登录IP1节点,在该节点上执行命令ps -ef | grep nscd ,查看是否有/usr/sbin/nscd进程启动。

    • 是,执行[步骤 5](#步骤 5)。
    • 否,执行[步骤 3](#步骤 3)。
  3. root 用户执行service nscd restart 命令,重启nscd服务,执行ps -ef | grep nscd ,查看服务是否启动。

    • 是,执行[步骤 4](#步骤 4)。
    • 否,执行[步骤 15](#步骤 15)。
  4. 5分钟后,以root 用户再次执行ps -ef | grep nscd 命令,查看服务是否存在。

    • 是,执行[步骤 11](#步骤 11)。
    • 否,执行[步骤 15](#步骤 15)。

检查网络是否故障,无法访问ldap服务器。

  1. root 用户登录故障节点,在这个节点上使用ping 命令检查该节点与LdapServer节点的网络是否畅通。

    • 是,执行[步骤 6](#步骤 6)。
    • 否,请联系网络管理员,解决网络故障。

检查Name Service服务是否异常。

  1. root 用户登录故障节点,执行命令cat /etc/nsswitch.conf ,查看NameService配置中的"passwd"、"group"、"services"、"netgroup"、"aliases"五项配置是否正确。

    正确配置请参照: "passwd: compat ldap"、"group: compat ldap"、"services: files ldap"、"netgroup: files ldap"、"aliases: files ldap"

    • 是,执行[步骤 7](#步骤 7)。
    • 否,执行。[步骤 9](#步骤 9)
  2. root 用户登录故障节点,执行命令cat /etc/nscd.conf ,查看配置文件中"enable-cache passwd"、"positive-time-to-live passwd"、"enable-cache group"、"positive-time-to-live group"四项配置是否正确。

    正确配置请参照: "enable-cache passwd yes "、"positive-time-to-live passwd yes"、"enable-cache group yes"、"positive-time-to-live group yes"

    • 是,执行[步骤 8](#步骤 8)。
    • 否,执行[步骤 10](#步骤 10)。
  3. root 用户执行**/usr/sbin/nscd -i group** 和**/usr/sbin/nscd -i passwd** 命令,等待2分钟,执行id adminid backup/manager 命令,查看是否能查询到结果。

    • 是,执行[步骤 11](#步骤 11)。
    • 否,执行[步骤 15](#步骤 15)。
  4. 以root用户执行vi /etc/nsswitch.conf 命令,将[步骤 6](#步骤 6)中的五项配置项改成正确配置,保存后执行service nscd restart 命令重启nscd服务,等待2分钟,执行id adminid backup/manager 命令,查看是否能查询到结果。

    • 是,执行[步骤 11](#步骤 11)。
    • 否,执行[步骤 15](#步骤 15)。
  5. 以root用户执行vi /etc/nscd.conf 命令,将[步骤 7](#步骤 7)中的四项配置项改成正确配置,保存后执行service nscd restart 命令重启nscd服务,等待2分钟,执行id adminid backup/manager 命令,查看是否能查询到结果。

    • 是,执行。[步骤 11](#步骤 11)
    • 否,执行[步骤 15](#步骤 15)。
  6. 登录FusionInsight Manager界面,等待5分钟,然后查看"ALM-25005 Nscd服务异常"告警是否恢复。

    • 是,处理完毕。
    • 否,执行[步骤 12](#步骤 12)。

检查操作系统执行命令是否卡顿。

  1. 用root用户登录故障节点,执行命令id admin ,观察命令返回结果时长,观察执行命令是否缓慢(超过3s即可认为执行命令慢)。

    是,执行[步骤 13](#步骤 13)。

    否,执行[步骤 15](#步骤 15)。

  2. 执行命令cat /var/log/messages ,查看nscd是否频繁重启或者存在Can't contact LDAP server的异常信息。

    nscd异常信息样例

    复制代码

    是,执行[步骤 14](#步骤 14)。

    否,执行[步骤 15](#步骤 15)。

  3. 执行命令vi$BIGDATA_HOME/tmp/random_ldap_ip_order ,修改末尾数字,若原本为奇数则改为偶数,若原本为偶数则修改为奇数;

    执行命令vi/etc/ldap.conf,将URI配置项的前两个IP进行颠倒,保存退出。

    执行命令service nscd restart ,重启nscd服务,等待5分钟,再次执行id admin命令,观察返回结果时长,观察执行命令是否缓慢。

    是,执行[步骤 15](#步骤 15)。

    否,登录其他故障节点执行[步骤 12](#步骤 12)至[步骤 14](#步骤 14);收集日志,并排查"/etc/ldap.conf"修改前URI中第一个ldapserver节点,是否故障,

    例如业务IP不可达、网络延时过长或者部署其他异常的软件。

收集故障信息。

  1. 在FusionInsight Manager界面,选择"系统设置 > 日志下载"。
  2. 在"服务"下拉框中勾选"LdapClient",单击"确定"。
  3. 设置日志收集的"开始时间"和"结束时间"分别为告警产生时间的前后1小时,单击"下载"。
相关推荐
forestsea1 分钟前
【Elasticsearch】数据分布与路由机制
大数据·elasticsearch·搜索引擎
敲代码敲到头发茂密6 分钟前
基于 LangChain 实现数据库问答机器人
数据库·人工智能·语言模型·langchain·机器人
一入程序无退路39 分钟前
c语言传参数路径太长,导致无法获取参数
linux·c语言·数据库
大圣数据星球1 小时前
揭秘 Fluss 架构组件
大数据·设计模式·flink
沙滩de流沙1 小时前
Hadoop生态
大数据·hadoop·分布式
进击的小小学生1 小时前
多因子模型连载
大数据·python·数据分析·区块链
qiquandongkh1 小时前
期权懂|期权入门知识:如何选择期权合约?
大数据·区块链
陌夏微秋1 小时前
STM32单片机芯片与内部47 STM32 CAN内部架构 介绍
数据库·stm32·单片机·嵌入式硬件·架构·信息与通信
互联网资讯1 小时前
抖音生活服务商系统源码怎么搭建?
大数据·运维·人工智能·生活
Allen_LVyingbo2 小时前
医院大数据平台建设:基于快速流程化工具集的考察
大数据·网络·人工智能·健康医疗