要精通 Kafka,需要深入理解其架构原理、核心组件、生产消费机制、运维调优及与业务系统的实战集成。以下是系统化的知识体系:
✅ 一、Kafka 基础核心
-
核心概念
- Topic、Partition、Offset、Broker、Cluster
- Producer、Consumer、Consumer Group、Zookeeper(或 KRaft)
-
消息模型
- 发布-订阅模型
- 顺序性、幂等性、消息持久化机制
-
Kafka 架构原理
- 分布式日志存储结构
- Leader-Follower 副本机制
- ISR、HW、LSR、AR 等术语理解
✅ 二、Kafka 生产与消费机制
-
Producer 原理
- 分区策略(轮询、Key hash、自定义)
- 批量发送、压缩(gzip、snappy)
- 幂等生产、事务消息、ACK 机制
-
Consumer 原理
- 消费位移管理(自动提交 vs 手动提交)
- 消费组重平衡(Rebalance)机制
- 拉模式消费与反压处理
-
序列化与反序列化
- String、JSON、Avro、Protobuf、Kafka Connect Converter
✅ 三、Kafka 高级特性
-
Kafka Streams / ksqlDB
- 实时流处理(窗口、聚合、连接)
- 状态存储、容错机制、交互式查询
-
Kafka Connect
- 数据源与目标(JDBC、Elasticsearch、HDFS 等)
- Source 和 Sink Connector 使用与开发
-
安全机制
- SASL、SSL、ACL 权限控制
- 加密传输、认证授权配置
✅ 四、Kafka 运维与调优
- 部署与集群管理
- 多 Broker 部署、Zookeeper/KRaft 配置
- Topic 管理(分区、副本、保留策略)
- 性能调优
- 批量大小、压缩、缓冲区配置
- Page Cache 利用、磁盘 IO 优化
- 监控与告警
- Kafka 自带 JMX 指标
- Prometheus + Grafana、Confluent Control Center
- 常见指标(Lag、吞吐量、ISR 数量)
- 故障处理与数据恢复
- Broker 宕机、分区丢失、数据副本恢复
- 消费延迟排查、Rebalance 优化
✅ 五、实战与集成
- 与主流框架集成
- Spring Kafka、Kafka Streams、Flink、Spark Streaming
- 与数据库、缓存、搜索引擎等系统对接
- 典型应用场景
- 日志采集、用户行为分析、订单系统解耦
- 实时 ETL、消息总线、事件驱动架构(EDA)
🎯 总结:
精通 Kafka = 架构原理 + 生产消费机制 + 运维调优 + 实战集成