该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系

该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系

这个去集群主机cm界面上看会出现这个错误

排查思路:

  1. 一般比较常见的原因可能是出问题的主机和集群主节点的时间对应不上了。
  2. 还有就是cm agent服务出现问题了

去该主机的后台进行查看

1.1 如果集群配置了ntp时间同步协议

查看问题节点的ntp服务是否正常启动

复制代码
systemctl status ntpd

root@cloudcdp02 \~\]# systemctl status ntpd ● ntpd.service - Network Time Service Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled) Active: active (running) since 一 2024-03-25 00:53:52 CST; 1 weeks 3 days ago Process: 717 ExecStart=/usr/sbin/ntpd -u ntp:ntp $OPTIONS (code=exited, status=0/SUCCESS) Main PID: 726 (ntpd) CGroup: /system.slice/ntpd.service └─726 /usr/sbin/ntpd -u ntp:ntp -g 3月 25 00:53:52 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c012 02 freq_set kernel 4.576 PPM 3月 25 00:53:52 cloudcdp02.hadoop.com systemd\[1\]: Started Network Time Service. 3月 25 00:53:57 cloudcdp02.hadoop.com ntpd\[726\]: Listen normally on 4 eth0 172.21.32.231 UDP 123 3月 25 00:53:57 cloudcdp02.hadoop.com ntpd\[726\]: Listen normally on 5 eth0 fe80::f87f:eaff:fe8b:1600 UDP 123 3月 25 00:53:57 cloudcdp02.hadoop.com ntpd\[726\]: new interface(s) found: waking up resolver 3月 25 00:58:21 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c61c 0c clock_step +0.293029 s 3月 25 00:58:21 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c614 04 freq_mode 3月 25 00:58:22 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c618 08 no_sys_peer 3月 25 01:14:01 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c612 02 freq_set kernel 4.919 PPM 3月 25 01:14:01 cloudcdp02.hadoop.com ntpd\[726\]: 0.0.0.0 c615 05 clock_sync

这种是正常已经启动好的
如果没有启动,就重启一下ntp服务

复制代码
systemctl start ntpd

在查看一下ntp是否与主节点进行时间同步

复制代码
ntpq -p

可以看到remote下面的主机前面有一个*,代表着正在与cloudcdp01进行时间同步,如果 *在local前面,就代表着与本地时间同步

如果offset下面的数字时间偏差太大的话,光靠ntp可能回不过来,这时候需要手动和主节点进行时间同步
手动同步命令

复制代码
ntpdate -s 主节点ip

重启agent服务

复制代码
 systemctl restart cloudera-scm-agent.service

1.2. 如果集群没有配置了ntp时间同步协议

查看主节点的时间

复制代码
date

然后在回到问题节点上面,直接修改问题节点的系统时间,让其与之同步
同步时间

复制代码
sudo date -s "2024-04-02 12:30:00"

重启agent服务

复制代码
 systemctl restart cloudera-scm-agent.service

2.如果agent服务出现问题

查看agent服务状态

复制代码
 systemctl status cloudera-scm-agent.service

如果发现agent服务停止就重新启动一下,如果发现agent服务没有了,就需要重新安装agent服务

重新安装agent服务,直接从主节点的/var/www/html里面发一份agent服务安装包,rpm安装一下就好了

服务安装好后,需要修改agent服务的配置文件,不然会出现agent服务无法识别主机的报错

修改agent服务的配置

复制代码
#进入配置服务目录
cd /etc/cloudera-scm-agent
#打开配置文件
vim config.ini

修改server_host后面的地址,把localhoust改为主节点ip。

然后重启agent服务

复制代码
 systemctl restart cloudera-scm-agent.service
相关推荐
无心水12 小时前
时间处理工程落地指南:数据库/日志/API/定时任务
java·大数据·数据库·日志·分布式架构·utc·gmt
紧固视界12 小时前
不锈钢标准件有哪些?种类与用途详解_6月上海紧固件展
大数据·物联网·上海紧固件展·紧固件展·上海紧固件专业展
小比特_蓝光12 小时前
Linux开发工具
linux·运维·服务器
岁岁种桃花儿12 小时前
AI超级智能开发系列从入门到上天第十篇:SpringAI+云知识库服务
linux·运维·数据库·人工智能·oracle·llm
ApacheSeaTunnel12 小时前
从 Apache SeaTunnel 走向 ASF Member:一位开发者的长期主义样本
大数据·开源·数据集成·seatunnel·数据同步
小陈工12 小时前
2026年3月24日技术资讯洞察:边缘AI商业化,Java26正式发布与开源大模型成本革命
java·运维·开发语言·人工智能·python·容器·开源
Lalolander13 小时前
工厂工艺管理进阶:SMT生产阶别如何实现精细化管控?
大数据·制造·mes·制造执行系统·工厂管理系统·工厂生产进度管理·工厂工单管理
ljh57464911913 小时前
Linux find命令
linux·运维·chrome
东方不败之鸭梨的测试笔记13 小时前
基于RF自动化重跑
运维·自动化
纪伊路上盛名在13 小时前
Zerotier-Tailscale 自动化监控
linux·运维·自动化·内网穿透