该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系

该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系

这个去集群主机cm界面上看会出现这个错误

排查思路:

  1. 一般比较常见的原因可能是出问题的主机和集群主节点的时间对应不上了。
  2. 还有就是cm agent服务出现问题了

去该主机的后台进行查看

1.1 如果集群配置了ntp时间同步协议

查看问题节点的ntp服务是否正常启动

复制代码
systemctl status ntpd

root@cloudcdp02 \~\]# systemctl status ntpd ● ntpd.service - Network Time Service Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled) Active: active (running) since 一 2024-03-25 00:53:52 CST; 1 weeks 3 days ago Process: 717 ExecStart=/usr/sbin/ntpd -u ntp:ntp $OPTIONS (code=exited, status=0/SUCCESS) Main PID: 726 (ntpd) CGroup: /system.slice/ntpd.service └─726 /usr/sbin/ntpd -u ntp:ntp -g 3月 25 00:53:52 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c012 02 freq_set kernel 4.576 PPM 3月 25 00:53:52 cloudcdp02.hadoop.com systemd\[1\]: Started Network Time Service. 3月 25 00:53:57 cloudcdp02.hadoop.com ntpd\[726\]: Listen normally on 4 eth0 172.21.32.231 UDP 123 3月 25 00:53:57 cloudcdp02.hadoop.com ntpd\[726\]: Listen normally on 5 eth0 fe80::f87f:eaff:fe8b:1600 UDP 123 3月 25 00:53:57 cloudcdp02.hadoop.com ntpd\[726\]: new interface(s) found: waking up resolver 3月 25 00:58:21 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c61c 0c clock_step +0.293029 s 3月 25 00:58:21 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c614 04 freq_mode 3月 25 00:58:22 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c618 08 no_sys_peer 3月 25 01:14:01 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c612 02 freq_set kernel 4.919 PPM 3月 25 01:14:01 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c615 05 clock_sync

这种是正常已经启动好的
如果没有启动,就重启一下ntp服务

复制代码
systemctl start ntpd

在查看一下ntp是否与主节点进行时间同步

复制代码
ntpq -p

可以看到remote下面的主机前面有一个*,代表着正在与cloudcdp01进行时间同步,如果 *在local前面,就代表着与本地时间同步

如果offset下面的数字时间偏差太大的话,光靠ntp可能回不过来,这时候需要手动和主节点进行时间同步
手动同步命令

复制代码
ntpdate -s 主节点ip

重启agent服务

复制代码
 systemctl restart cloudera-scm-agent.service

1.2. 如果集群没有配置了ntp时间同步协议

查看主节点的时间

复制代码
date

然后在回到问题节点上面,直接修改问题节点的系统时间,让其与之同步
同步时间

复制代码
sudo date -s "2024-04-02 12:30:00"

重启agent服务

复制代码
 systemctl restart cloudera-scm-agent.service

2.如果agent服务出现问题

查看agent服务状态

复制代码
 systemctl status cloudera-scm-agent.service

如果发现agent服务停止就重新启动一下,如果发现agent服务没有了,就需要重新安装agent服务

重新安装agent服务,直接从主节点的/var/www/html里面发一份agent服务安装包,rpm安装一下就好了

服务安装好后,需要修改agent服务的配置文件,不然会出现agent服务无法识别主机的报错

修改agent服务的配置

复制代码
#进入配置服务目录
cd /etc/cloudera-scm-agent
#打开配置文件
vim config.ini

修改server_host后面的地址,把localhoust改为主节点ip。

然后重启agent服务

复制代码
 systemctl restart cloudera-scm-agent.service
相关推荐
zdd5678917 小时前
行存表与列存表简述
运维·postgresql
阿坤带你走近大数据17 小时前
大数据行业中,什么是拉链表?具体怎么做?
大数据
福尔摩斯张17 小时前
Linux的pthread_self函数详解:多线程编程中的身份标识器(超详细)
linux·运维·服务器·网络·网络协议·tcp/ip·php
2401_8322981018 小时前
一云多芯时代:云服务器如何打破芯片架构壁垒
运维·服务器·架构
数字化顾问18 小时前
(100页PPT)未来工厂大数据应用专题建设解决方案(附下载方式)
大数据
Web极客码18 小时前
如何在 Linux 中终止一个进程?
linux·运维·服务器
一枚正在学习的小白18 小时前
prometheus监控对外服务
运维·prometheus
tzhou6445218 小时前
Docker Compose 编排与 Harbor 私有仓库
运维·docker·容器
tiannian122018 小时前
如何选择适合企业的RFID系统解决方案?
大数据·人工智能
A132470531219 小时前
防火墙配置入门:保护你的服务器
linux·运维·服务器·网络