大数据学习（100）-kafka详解

🍋🍋大数据学习🍋🍋

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

Apache Kafka 是一个 分布式流处理平台 ，主要用于构建 高吞吐量、低延迟、可扩展 的实时数据管道和流式应用程序。它广泛应用于日志聚合、事件溯源、消息队列、实时分析等场景。

向 Kafka 发布（写入） 消息的客户端。

可以指定消息发送到哪个 Topic（主题） 和 Partition（分区）。

从 Kafka 订阅（读取） 消息的客户端。

消费者可以组成 Consumer Group（消费者组），实现负载均衡。

Kafka 集群中的单个服务器节点。

负责存储消息、处理生产者和消费者的请求。

消息的分类（类似数据库中的表）。

一个 Topic 可以分成多个 Partition（分区），提高并行处理能力。

Topic 的物理存储单元，分布在不同的 Broker 上。

每个 Partition 是一个 有序、不可变 的消息队列。

消息在 Partition 内按 Offset（偏移量） 索引。

每个 Partition 可以有多个副本（Leader + Followers），提高容错能力。

Leader 处理读写请求，Followers 同步数据。

多个消费者可以组成一个组，共同消费一个 Topic。

每个 Partition 只能被组内的 一个消费者 消费，实现负载均衡。

消息队列（MQ）：解耦生产者和消费者，异步处理任务。

日志收集：集中存储和分析应用日志（如 ELK 架构）。

实时数据处理：结合 Flink/Spark 进行实时计算。

事件溯源（Event Sourcing）：记录系统状态变化。

Metrics & Monitoring：传输监控数据（如 Prometheus + Kafka）。