【Kafka基础】监控与维护:分区健康检查,确保数据高可用

1 基础健康检查命令

1.1 查看未同步副本

复制代码
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-topics.sh --describe \
    --bootstrap-server 192.168.10.33:9092 \
    --under-replicated-partitions

参数说明

  • --under-replicated-partitions:显示所有副本未完全同步的分区
  • 输出解读:结果会显示哪些分区的副本落后于leader,通常表示网络问题、broker故障或磁盘I/O瓶颈

1.2 检查无Leader分区

复制代码
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-topics.sh --describe \
    --bootstrap-server 192.168.10.33:9092 \
    --unavailable-partitions

参数说明

  • --unavailable-partitions:显示当前没有活跃leader的分区
  • 严重程度:这种情况会导致客户端无法读写该分区,属于严重故障

2 高级健康检查命令

2.1 查看分区ISR变化历史

复制代码
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-topics.sh --describe \
    --bootstrap-server 192.168.10.33:9092 \
    --topic your-topic \
    --unavailable-partitions \
    --under-replicated-partitions \
    --verify

参数说明:

  • --verify:显示更详细的分区状态验证信息

2.2 检查分区分布均衡性

复制代码
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-topics.sh --describe \
    --bootstrap-server 192.168.10.33:9092 \
    | awk '/Partition:/ {print $2,$4}' \
    | sort | uniq -c \
    | sort -nr

2.3 检查消息堆积情况

复制代码
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-run-class.sh kafka.tools.GetOffsetShell \
    --broker-list 192.168.10.33:9092 \
    --topic testtopic \
    --time -1 \
    | awk -F ":" '{sum += $3} END {print sum}'

3 故障排查标准化流程

3.1 检查Broker状态

复制代码
# 查看broker存活状态
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-broker-api-versions.sh --bootstrap-server 192.168.10.33:9092 

# 检查controller broker 
/export/home/kafka_zk/kafka_2.13-2.7.1/bin/zookeeper-shell.sh 192.168.10.33:2181 get /controller

3.2 验证网络连接

复制代码
# 测试 broker 间连通性
for broker in 192.168.10.33:9092 192.168.10.34:9092 192.168.10.35:9092; do
    echo "Testing $broker..."
    telnet ${broker%:*} ${broker#*:} <<EOF
EOF
done

3.3 查看日志文件

复制代码
# 查看 Kafka 服务日志
tail -n 100 /export/home/kafka_zk/kafka_2.13-2.7.1/logs/server.log | grep -E "ERROR|WARN"

# 查看 controller 日志
grep "Controller" /export/home/kafka_zk/kafka_2.13-2.7.1/logs/controller.log | tail -n 50

3.4 检查系统资源

复制代码
# 检查磁盘空间 
df -h

# 检查磁盘 I/O 
iostat -dx 2 5 

# 检查内存使用 
free -h
相关推荐
代码改善世界6 小时前
【前瞻创想】Kurator:驾驭分布式云原生世界的“统一舰队”
分布式·云原生
行走正道6 小时前
【前瞻创想】标准之争:论Kurator在分布式云原生API标准化中的潜在角色
分布式·api·kurator·标准化·策略驱动
代码改善世界6 小时前
【探索实战】从零到一:Kurator 构建分布式云原生平台的探索与实践
分布式·云原生
9***Y487 小时前
后端在分布式中的Apache Kafka
分布式·kafka
yumgpkpm7 小时前
腾讯TBDS和Cloud Data AI CMP 比较的缺陷在哪里?
hive·hadoop·elasticsearch·zookeeper·spark·kafka·hbase
初学者,亦行者7 小时前
【前瞻创想】集成与创新并举,引领分布式云原生新范式
分布式·云原生
i***58677 小时前
【RabbitMQ】超详细Windows系统下RabbitMQ的安装配置
windows·分布式·rabbitmq
小马过河R7 小时前
tRPC-GO 框架Helloworld实践初体验
开发语言·分布式·后端·架构·golang·gin·beego
小小工匠7 小时前
大规模数据处理:12_Kappa架构剖析与Kafka在大规模流式数据处理中的应用实践
架构·kafka·kappa
小程故事多_807 小时前
Kthena 引爆云原生推理革命:K8s 分布式架构破解 LLM 编排困局,吞吐狂飙 273%
人工智能·分布式·云原生·kubernetes·aigc