kafka高可靠性

  • kafka的高可靠性的核心是保证消息在传递过程中不丢失,涉及如下核心环节:

    1. 消息从生产者可靠的发送至Broker;---网络、本地丢数据。
    2. 发送Broker的消息可靠持久化;---PageCache缓存落盘、单点崩溃、主从同步跨网络。
    3. 消费者从Broker消费到消息且最好只消费一次。---跨网络消息传输。
  • Kafka通过多级协同机制保障高可靠性,具体实现如下:

一、生产者端防丢失

ACKs分级确认‌ :设置acks=all要求所有同步副本(ISR)持久化后才确认写入,结合min.insync.replicas=2确保最小副本数‌。
幂等与事务‌:启用enable.idempotence=true防止消息重复,事务机制(transactional.id)保证跨分区原子写入‌。

Producer发送消息后,能够收到来自Broker的消息保存成功ack:

  • Request.required.acks=0:请求发送即认为发送成功,不关心有没有写成功,常用于日志进行分析场景。
  • Request.required.acks=1:当leader partition写入成功以后,才算写入成功,有丢数据的可能。
  • Request.required.acks=-1:ISR列表里面的所有副本都写完以后,这条消息才算写入成功,强可靠性保证。

二、Broker层冗余设计

1.副本同步机制‌(为了解决单机故障可能带来的数据丢失问题,kafka为分区引入了副本机制):

  • 分区配置多副本(通常3副本),Leader处理读写,Follower同步数据‌。
  • ISR动态管理:仅同步延迟≤replica.lag.time.max.ms(默认30秒)的副本,故障时从ISR选举新Leader‌。
  • 分区的所有副本统称为AR,所有与leader副本保持一定同步的副本组成ISR,与leader同步滞后的多个副本组成OSR。
  • kafka通过多副本机制解决单机故障,也引入了数据一致性问题。

2.持久化优化‌

Kafka为了获得更高吞吐,Broker接收到消息后只是将数据写入PageCache后便认为消息已写入成功,而PageCache中的数据通过linux的flusher程序进行异步刷盘。

  • 消息顺序写入磁盘,零拷贝传输(sendfile)减少CPU开销。
  • 禁用非ISR选举:unclean.leader.election.enable=false防止数据不一致‌。

三、消费者端精准消费

  • 手动提交Offset‌:关闭自动提交(enable.auto.commit=false),业务处理完成后同步提交commitSync()‌。
  • 幂等处理‌:业务层通过唯一标识符(如消息ID)实现去重‌。

四、容灾与高可用

  • 跨集群同步‌:MirrorMaker 2.0实现异地容灾‌。
  • KRaft模式‌:Kafka3.0+移除ZooKeeper依赖,控制器秒级切换‌。

参考:

  1. 大白话八股-Kafka
相关推荐
SoleMotive.7 小时前
谢飞机爆笑面经:Java大厂3轮12问真题拆解(Redis穿透/Kafka分区/MCP Agent)
redis·spring cloud·kafka·java面试·mcp
程序猿阿伟8 小时前
《分布式追踪Span-业务标识融合:端到端业务可观测手册》
分布式
爆米花byh9 小时前
在RockyLinux9环境的Kafka4.1.1单机版安装(无ZK依赖)
中间件·kafka
yumgpkpm10 小时前
预测:2026年大数据软件+AI大模型的发展趋势
大数据·人工智能·算法·zookeeper·kafka·开源·cloudera
消失的旧时光-194310 小时前
第十六课实战:分布式锁与限流设计 —— 从原理到可跑 Demo
redis·分布式·缓存
若水不如远方10 小时前
分布式一致性(三):共识的黎明——Quorum 机制与 Basic Paxos
分布式·后端·算法
DemonAvenger11 小时前
Kafka消费者深度剖析:消费组与再平衡原理
性能优化·kafka·消息队列
会算数的⑨11 小时前
Kafka知识点问题驱动式的回顾与复习——(一)
分布式·后端·中间件·kafka
张小凡vip12 小时前
Kafka--使用 Kafka Connect 导入/导出数据
分布式·kafka
回忆是昨天里的海12 小时前
kafka概述
分布式·kafka