什么是Kafka？ - 技术栈

什么是 Apache Kafka？

Apache Kafka 是一种开源分布式事件流平台，经过优化以实时摄取、处理和路由大规模数据流。

发布和订阅事件流记录。
以高容错和持久化的方式在磁盘上存储事件流。
在事件发生时实时处理事件流。
在不同系统或应用程序之间可靠地传输数据。

Apache Kafka 有何作用？

Apache Kafka 主要用于构建实时流数据管道和适应数据流的应用程序。它解耦了数据生产者和消费者，实现了高吞吐量的异步通信和事件驱动架构。例如，如果您要创建一款金融交易欺诈检测系统，Kafka 可以实时捕获来自全球用户的数百万次刷卡交易记录，并将其无缝路由到后端的机器学习模型中进行即时分析和阻断，而不会对核心交易数据库造成性能压力。

Apache Kafka 的工作原理

Kafka 运行在一个由一台或多台服务器组成的分布式集群上，采用发布-订阅（Publish-Subscribe）和追加日志模型。其核心架构由以下组件构成：

主题 (Topic)： 逻辑上的数据类别或流名称。生产者向特定主题写入数据，消费者从主题读取数据。
分区 (Partition)： 主题被物理分割成多个分区并分布在不同节点上。由于采用了分区日志架构，系统允许并发读写，从而实现水平扩展。
生产者 (Producer)： 将数据记录推送到 Kafka 主题内的特定分区中的客户端应用程序。
消费者 (Consumer)： 订阅主题并读取对应分区中消息的应用程序。在同一个消费者组中，每个使用者按顺序收到分区内的信息。
代理 (Broker)： Kafka 集群中的单台服务器节点，负责接收生产者发送的消息，将消息持久化到本地磁盘，并为消费者提供拉取服务。

Apache Kafka 的方法有哪些优点？

高吞吐量

由于采用了零拷贝（Zero-Copy）技术和顺序磁盘 I/O 写入，Kafka 能够以极低的硬件开销每秒处理数百万条消息。

高可扩展性

通过将主题划分为多个分区并分布在多个代理（Broker）上，系统支持在不停止服务的情况下动态添加节点和平衡负载。

持久性

由于数据被直接持久化到磁盘，并在集群内部的多个代理之间进行多副本复制（Replication），单台服务器故障不会导致数据丢失。

容错性

借助内部的领导者选举机制，当某个分区的主节点失效时，从属副本会自动接管读写请求，确保服务和数据流的高可用性。

Apache Kafka 和 RabbitMQ 之间有什么区别？

特性	Apache Kafka	RabbitMQ
架构模型	分布式追加提交日志（以拉取 Pull 模型为主）	传统消息队列代理（以推送 Push 模型为主）
消息保留机制	基于配置的保留策略（按时间或大小），消息被消费后不立即删除，支持事件回放	消息一旦被消费者接收并确认（ACK），即从队列中删除
可扩展性	极高（通过分区机制实现横向扩展），专为大规模数据流设计	较高（通过集群扩展），主要优化灵活的节点分布和队列路由
吞吐量性能	极高（百万级 TPS，顺序 I/O 优化）	中高（数万至十万级 TPS）
核心应用场景	实时事件流处理、日志聚合、大数据管道摄取	复杂的消息路由、微服务异步通信、长时间运行的任务队列

如何支持您的 Apache Kafka 要求？

部署、扩展和管理开源 Apache Kafka 集群需要大量的底层架构运维精力，包括配置 ZooKeeper/KRaft 控制器、管理服务器节点容量以及处理分区重新平衡。您可以使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 来简化这一过程。Amazon MSK 是一项全托管式服务，可自动预置和管理高可用性的 Kafka 集群，提供原生 Apache Kafka API 兼容性，同时在 AWS 基础架构层面内置了安全性、跨可用区复制和弹性扩展等最佳实践。