一次kafka节点异常掉线问题排查,用到监控方恨少....

前段时间平平无奇的一个中午,11:10左右,再过一会就是日常下楼吃午饭的时间。嗯,很平常。

突然,收到了kafka端口异常的告警通知,心里咯噔一下,别是节点挂了吧[裂开]:

通常情况下,如果不是3节点+3副本的kafka集群,单节点挂掉没有什么可担心的,短时间内不会影响服务运行。

但我一看ip,就想起这个集群确实是3节点+3副本的,当场就裂开了。

正好,这个时候也接到了业务请求kafka 499的超时告警。得,这下铁定挂了没跑了。

上机器查grep了下,果然kafka server的进程没有了。

先按照启动命令把服务先启动起来,避免服务长时间不可用,报错日志可以等会再排查。

bash 复制代码
kafka-server-start -daemon /etc/kafka/server.properties

但是发现启动不了。过不了几秒,进程就自行消失了。这下只能先去日志里看看到底是什么问题,居然重启都无法解决。

log 复制代码
org.I0Itec.zkclient.exception.ZkTimeoutException: Unable to connect to zookeeper server 'xx.x.x.xx:2181,xx.x.x.xx:2181,xx.x.x.xx:2181' with timeout of 6000 ms

咦,怎么zk出问题了?赶忙去telnet zk的接口,发现3台节点都可以连通,并且监控组件显示zk节点都是live的。

但是想要查看zk内的数据时,却同样出现了连接报错:

没什么特别好的办法,只能先重启zk,看看能不能解决zk假死的问题。

先后重启了follower和leader节点后,zk至少可以访问通,可以查看数据了。

再次尝试启动kafka节点,这次在日志里发现了关键报错信息:No space left on device

看到这里瞬间恍然大悟。退出日志后,查看了下磁盘占用,数据盘使用率果然已经100%,罪魁祸首找到了!

再次通过磁盘大小占用率分析,定位到了罪魁祸首(用于binlog存储的某topic)。联系推送方进行数据清理后,kakfa服务恢复正常。

服务不可用时间大约半个小时多。

不过幸运的是,这个只是测试环境的kafka服务,传输的数据重要程度有限,没有造成什么严重事故。

简要复盘一下原因:

1、由于是测试环境机器,运维没有部署磁盘监控,导致磁盘爆了,无法预知。如果有磁盘监控,本次事故也是可以提前规避掉的。

2、没有限制topic创建权限,导致异常数据量topic耗光磁盘空间,进而导致服务宕机。

相关推荐
大数据追光猿7 小时前
Python应用算法之贪心算法理解和实践
大数据·开发语言·人工智能·python·深度学习·算法·贪心算法
人类群星闪耀时8 小时前
物联网与大数据:揭秘万物互联的新纪元
大数据·物联网·struts
桃林春风一杯酒14 小时前
HADOOP_HOME and hadoop.home.dir are unset.
大数据·hadoop·分布式
桃木山人15 小时前
BigData File Viewer报错
大数据·java-ee·github·bigdata
B站计算机毕业设计超人15 小时前
计算机毕业设计Python+DeepSeek-R1高考推荐系统 高考分数线预测 大数据毕设(源码+LW文档+PPT+讲解)
大数据·python·机器学习·网络爬虫·课程设计·数据可视化·推荐算法
数造科技15 小时前
紧随“可信数据空间”政策风潮,数造科技正式加入开放数据空间联盟
大数据·人工智能·科技·安全·敏捷开发
逸Y 仙X18 小时前
Git常见命令--助力开发
java·大数据·git·java-ee·github·idea
caihuayuan419 小时前
PHP建立MySQL持久化连接(长连接)及mysql与mysqli扩展的区别
java·大数据·sql·spring
B站计算机毕业设计超人19 小时前
计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化 民宿爬虫 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·机器学习·课程设计·数据可视化·推荐算法
(; ̄ェ ̄)。20 小时前
在nodejs中使用ElasticSearch(二)核心概念,应用
大数据·elasticsearch·搜索引擎