1 under-replicated partitions异常原因
Kafka报错under replicated partitions意味着某些分区的副本数量未达到预期的复制因子。
主要有两种原因,
-
Broker故障
如果某个Kafka Broker发生故障,导致其中一些分区的副本不再可用,那么这些分区就会被标记为"under-replicated"
-
副本分配策略
在Kafka集群中,副本分配策略(replica assignment)可能导致某些分区的副本分布不均衡。例如,如果你添加或删除了Broker,并且未正确调整副本分配策略,就可能导致副本分布不均匀,从而产生"under-replicated partitions"错误
bash
$ ./bin/kafka-topics.sh --describe --topic recording --bootstrap-server my-bootstrap:9092
Topic: recording TopicId: lc5n53IzQJaxMRUpafyjlA PartitionCount: 199 ReplicationFactor: 3 Configs: compression.type=lz4,cleanup.policy=delete,retention.ms=172800000,message.format.version=2.8-IV1
...
Topic: recording Partition: 182 Leader: 2 Replicas: 2,1,0 Isr: 2,0,1
Topic: recording Partition: 183 Leader: 2 Replicas: 1,2,0 Isr: 2
Topic: recording Partition: 184 Leader: 0 Replicas: 0,1,2 Isr: 2,0,1
上面recording下面的Partition: 183就少了两个处于同步状态的副本集合(ISR:In-Sync Replicas),因此会有under-replicated告警。
2 修复方法
一般来说,我们通过下面的步骤就能恢复,
- 重启leader zookeeper
- 重启缺少对应副本集合的kafka
这又有另一个问题,如何确定哪个zk实例是leader呢?我们可以连接到zk,通过命令查询。
因为我的kafka集群是通过k8s部署的,因此需要进入pod,查询到端口,然后再执行命令,
bash
localhost $ kubectl exec -it zookeeper-0 -- /bin/sh
sh-4.4$ netstat -ntlp | grep "127.0.0.1"
tcp6 0 0 127.0.0.1:12181 :::* LISTEN 78/java
sh-4.4$ echo srvr | nc localhost 12181 | grep Mode
Mode: follower
可见该zk节点并不是leader, 而是follower。
参考文档: