Kafka 消息传递模型

本文章出自 Java技术小馆https://www.yuque.com/jtostring/am5oq3/ac34uu2liy50t042?singleDoc#LyUGd

Kafka 消息传递模型

分布式消息中间件------Kafka ,特别是它的消息传递模型。在如今的大数据时代和微服务架构中,Kafka已经成为了不可或缺的一部分。它的高吞吐量、低延迟和可靠性,使得它广泛应用于日志收集、流数据处理、事件驱动架构等领域。

在传统的消息中间件中,消息的传递通常依赖于中心化的服务,它会将消息从生产者传递到消费者。而在Kafka的设计中,消息的传递是基于一种发布/订阅模式 ,并且引入了分区消费者组的概念,使得它不仅具备了高并发的处理能力,还保证了数据的可靠性和可扩展性。

Kafka 消息传递模型概述

Kafka 的消息传递模型是其核心特性之一,也是它能够高效、可靠地处理海量数据的基础。Kafka 的设计理念围绕着分布式、可扩展、容错和高吞吐量展开,借助其独特的消息传递机制,Kafka 成为许多大规模数据处理系统的中枢。

1. 生产者与消费者

Kafka 采用了经典的发布/订阅模型,生产者将消息发送到 Kafka 集群中的主题(Topic),消费者则从这些主题中消费消息。生产者和消费者之间是松耦合的,这意味着它们不需要直接了解对方的实现,Kafka 作为中介来处理数据的传递。

  • 生产者(Producer):负责生成消息并将其发送到指定的 Kafka 主题。
  • 消费者(Consumer):从 Kafka 主题中消费消息,可以是单个消费者或消费者组(Consumer Group)中的多个消费者。
2. 主题与分区(Topic and Partition)

Kafka 中的消息以**主题(Topic)**为单位进行组织,类似于传统消息队列中的"队列"。每个主题可以包含多个消息分区(Partition)。分区是 Kafka 中的基本数据单元,每个分区内的消息是有顺序的,但不同分区之间的消息顺序并不保证。

  • 主题(Topic):消息的分类标识,消费者通过订阅主题来获取消息。
  • 分区(Partition):每个主题被拆分成多个分区,每个分区的消息是有序的。分区能够实现并行处理和负载均衡。
3. 消费者组(Consumer Group)

Kafka 中的消费者通常以**消费者组(Consumer Group)**的方式工作。消费者组中的每个消费者负责消费不同分区的消息,多个消费者可以并行消费同一个主题,从而提高系统的吞吐量和处理能力。Kafka 会确保同一消费者组内的每个消费者只消费每个分区的消息一次。

  • 消费者组(Consumer Group):一组消费者在消费相同主题时,分配到不同的分区。每个消费者只消费一个分区的消息。
4. 消息顺序与偏移量(Offset)

在 Kafka 中,消息在分区内是有序的。每条消息都有一个偏移量(Offset),用来标识该消息在分区中的位置。消费者在消费消息时,会根据偏移量来记录其消费的位置。

  • 偏移量(Offset):每个分区中的每条消息都有一个唯一的偏移量,消费者用它来跟踪消息的消费进度。
  • 消息顺序:Kafka 保证在同一个分区内,消息的顺序是严格的,但不同分区之间无法保证顺序。
5. 持久化与消息日志(Log)

Kafka 将消息持久化到磁盘中,这意味着即使在消费之前,消息也不会丢失。Kafka 的消息持久化方式是基于日志文件(Log)来实现的,消息按顺序写入日志,并根据配置的保留策略进行管理。

  • 消息日志(Log):每个分区都有一个对应的消息日志文件,生产者将消息写入到日志文件,消费者从日志文件中读取消息。
  • 消息保留策略:Kafka 支持基于时间或空间的消息过期策略,一旦消息过期或达到空间限制,它将被删除。
6. 高吞吐量与分布式架构

Kafka 的消息传递模型可以横向扩展,通过增加更多的代理(Broker)来处理更高的消息流量。Kafka 的分布式架构确保了消息的高可用性和容错性。每个分区都有多个副本,副本的选举和同步保证了消息在节点故障情况下仍然能被可靠地存储和读取。

  • 高吞吐量:Kafka 的设计强调高吞吐量,它能够高效地写入和读取大量消息。
  • 分布式架构:Kafka 是一个分布式系统,多个 Kafka 节点组成一个集群,数据在集群中进行分布和备份。
7. 消息确认与容错

Kafka 提供了消息确认机制,确保消息在传输过程中不丢失。生产者可以根据需求设置确认级别(acknowledgment level),以决定在消息被写入多少副本后返回确认。Kafka 还支持高可用性,分区的副本确保了系统的容错性。

  • 消息确认机制:生产者可以设置不同的确认级别(如:只确认 Leader、副本确认等),以确保消息可靠性。
  • 容错性:Kafka 的分区副本机制保证了即使部分节点宕机,消息数据依然可用。

Kafka 核心组件

Kafka 的设计非常注重分布式架构和高吞吐量,其核心组件支撑了整个消息系统的高效运行。

1. Producer(生产者)

Producer 是 Kafka 系统中的消息生产者,负责将消息发送到 Kafka 集群中的特定主题(Topic)。它通过将数据写入分区(Partition)来提供消息服务。

  • Producer 角色:Producer 负责生成消息并将其推送到 Kafka 中的主题。在发送消息时,Producer 需要指定消息所属的主题。
  • 消息分配:Producer 在发送消息时,通常通过一定的策略将消息分配到不同的分区,通常基于消息的键(Key)来进行分区映射。
  • 异步发送:Producer 默认采用异步发送的方式,即发送消息后,不会等待 Kafka 确认,而是继续发送其他消息。这提高了系统的吞吐量。
2. Consumer(消费者)

Consumer 是 Kafka 系统中的消息消费者,负责从 Kafka 的主题(Topic)中消费消息。消费者可以独立工作,也可以通过消费者组来实现并行消费。

  • Consumer 角色:消费者通过订阅主题来消费消息。消费者读取消息的过程是按顺序进行的,Kafka 保证了消息在同一分区中的顺序性。
  • 消费者组(Consumer Group):Kafka 提供消费者组的机制,多个消费者可以组成一个消费者组,在该组中,每个消费者消费不同分区的消息,从而实现负载均衡和并行处理。
3. Broker(代理)

Kafka Broker 是 Kafka 集群中的核心组件,负责存储和管理消息数据。Kafka 集群通常由多个 Broker 组成,每个 Broker 负责处理一部分数据和客户端的请求。

  • Broker 角色:Broker 接收 Producer 发送的消息,存储消息,并处理 Consumer 请求。它通过网络与其他 Broker 通信以维持集群的状态。
  • 分区与副本:每个 Broker 负责存储主题的一个或多个分区(Partition),并且每个分区可以有多个副本(Replica)。副本分布在不同的 Broker 上,确保了数据的高可用性和容错性。
4. ZooKeeper

ZooKeeper 是 Kafka 用来协调集群内部各个节点的工具,负责 Kafka 集群的元数据管理和故障恢复等任务。

  • ZooKeeper 角色:Kafka 使用 ZooKeeper 来管理 Broker 节点的元数据,例如记录 Broker 节点的状态、协调分区副本的选举、检测节点失效等。
  • 集群管理:ZooKeeper 管理 Kafka 集群中的 Broker 列表,帮助 Kafka 确定各个分区的领导者,并在节点发生故障时重新选举新的领导者。
5. Topic(主题)

Topic 是 Kafka 中消息的基本逻辑单元,生产者将消息发送到指定的主题,消费者则订阅该主题并消费消息。

  • Topic 角色:Kafka 中的每个消息都是归属于某个主题的。一个 Kafka 集群可以有多个主题,每个主题可以有多个分区(Partition)。
  • 分区(Partition):主题下的消息被分配到多个分区,每个分区中的消息按顺序排列,且 Kafka 保证同一分区内消息的顺序性。
6. Partition(分区)

Partition 是 Kafka 中消息的存储单元。每个主题可以由多个分区组成,每个分区是一个顺序写入的日志文件。

  • Partition 角色:每个分区是消息的一个有序队列,消息按照生产的顺序写入到分区中。每个分区中的消息都有一个唯一的偏移量(Offset)。
  • 分区的作用:分区使得 Kafka 能够水平扩展。Kafka 能够通过将消息分布到多个分区上来提高吞吐量,同时支持并行消费和负载均衡。
7. Consumer Group(消费者组)

消费者组是 Kafka 中一组消费者的集合。多个消费者组成一个消费者组,可以实现对同一个主题的并行消费。

  • 消费者组角色:在消费者组中,每个消费者负责消费该组内不同分区的消息,保证每个分区只被组内的一个消费者消费。
  • 负载均衡:消费者组的机制使得 Kafka 支持负载均衡,即使是对同一个主题的消费请求也能够被多个消费者高效地处理。
8. Replica(副本)

Replica 是 Kafka 中的每个分区的副本。Kafka 为了保证数据的可靠性和容错性,允许每个分区有多个副本。副本的分布策略使得 Kafka 能够在 Broker 节点发生故障时继续提供数据服务。

  • Replica 角色:每个分区都会有一个副本,其中一个副本被选为该分区的领导者(Leader),而其他副本是跟随者(Follower)。生产者将消息发送到领导者,消费者从领导者读取数据。
  • 副本同步:所有副本都需要与领导者同步数据,保证数据的一致性。若领导者出现故障,Kafka 会自动选择一个跟随者作为新的领导者。
9. Kafka Streams

Kafka Streams 是 Kafka 提供的一个流处理库,它允许开发者在 Kafka 中直接处理流数据。通过 Kafka Streams,用户可以轻松地实现对实时数据流的处理和分析。

  • Kafka Streams 角色:它是一个流处理框架,可以对 Kafka 中的消息进行过滤、聚合、连接等处理。Kafka Streams 可以独立运行,也可以与其他 Kafka 组件结合使用。

Kafka 消息传递流程

Kafka 的消息传递流程是其设计中的一个关键要素,它决定了消息的生产、存储、消费的高效性和可靠性。了解 Kafka 的消息传递流程能够帮助我们更好地理解 Kafka 的底层机制、消息的可靠性保证以及其高吞吐量的实现。

1. Producer 发送消息

消息的生产者(Producer)负责将消息发送到 Kafka 集群中的指定主题(Topic)下。生产者首先需要连接到 Kafka 集群中的一个或多个 Broker 节点。

  • 选择 Broker:当 Producer 启动并准备发送消息时,它会通过 Kafka 集群的元数据来选择目标 Broker。Kafka 使用 ZooKeeper 管理集群的元数据,Producer 会查询该元数据以找到正确的 Broker。

  • 选择 Partition:Kafka 中的每个 Topic 都可以有多个分区(Partition)。Producer 在发送消息时,基于某些策略选择一个具体的分区。默认情况下,Producer 会根据消息的 key 使用哈希算法来决定发送到哪个分区。如果消息没有 key,Producer 会随机选择一个分区。

    ProducerRecord<String, String> record = new ProducerRecord<>(topic, key, message);
    producer.send(record);

  • 消息发送:Producer 会将消息发送到指定分区的领导 Broker(Leader)。Producer 会异步地发送消息并且提供回调函数,用于确认消息是否成功写入 Kafka。

2. Broker 接收消息

Kafka 中的每个 Broker 都可以接收和存储消息,Broker 会将消息存储在磁盘中的日志文件中。

  • 消息存储:当消息到达领导 Broker 后,它会将消息写入相应分区的日志文件。Kafka 的分区是一个有序的消息队列,消息按顺序被追加到日志文件的末尾。
  • 副本同步:每个分区通常有多个副本(Replica),其中一个副本是领导者(Leader),其他是跟随者(Follower)。领导者负责处理所有的读写请求,并将消息同步到其他副本。
3. Consumer 订阅并消费消息

消费者(Consumer)是 Kafka 中的消费者,负责从指定的 Topic 中消费消息。消费者通过订阅主题来获取消息。

  • 选择 Broker:消费者通过 Kafka 集群的元数据,选择一个 Broker 连接。消费者不直接连接到存储消息的 Broker,而是连接到集群中的任意 Broker,通过该 Broker 获取分区的元数据。

  • 分区和偏移量:消费者组内的每个消费者负责消费不同分区的数据。消费者在消费时会记录自己的偏移量(Offset),即已经消费的消息的位置。消费者可以选择从当前最新的消息开始消费,或者从指定的偏移量开始消费。

    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(config);
    consumer.subscribe(Arrays.asList(topic));

    while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
    // 处理消息
    }
    }

  • 消息消费:消费者从指定分区的领导 Broker 上拉取消息,并从日志文件中读取。消费的过程可以是同步的,也可以是异步的。

4. 消息确认与失败处理

Kafka 提供了消息的可靠性保证,消费者和生产者在消息传递过程中都需要处理消息确认和失败恢复。

  • 生产者消息确认:生产者在发送消息时,可以通过配置来设置消息的确认方式(acknowledgment)。生产者可以选择在发送消息时等待服务器确认是否成功写入。
    • acks=0:生产者不等待确认,消息发送后直接返回。
    • acks=1:生产者等待领导 Broker 确认消息已经写入。
    • acks=all:生产者等待所有副本确认消息已经写入。
  • 消费者消息确认:消费者在消费消息时会记录自己的偏移量,偏移量会随着消费的进度进行更新。消费者可以手动提交偏移量,或者由 Kafka 自动管理偏移量。
5. 消息的容错与高可用

Kafka 通过副本机制来保证消息的容错性与高可用性。每个分区的消息会有多个副本,副本分布在不同的 Broker 上。

  • 副本机制:每个分区有一个领导者副本和多个跟随者副本。生产者和消费者都与领导者副本进行交互,写入和读取数据。Kafka 会确保所有跟随者副本与领导者副本同步。如果领导者副本发生故障,Kafka 会自动选举一个新的领导者副本。
  • 分区和副本的容错性:副本机制使得 Kafka 在单个 Broker 或多个 Broker 故障的情况下,依然能够保持数据的可用性和一致性。
6. Consumer Group 与负载均衡

Kafka 通过消费者组(Consumer Group)来实现负载均衡和消息的并行消费。在一个消费者组中,消费者共享消费同一个主题的消息,但每个分区的消息只能被组内的一个消费者消费。

  • 负载均衡:当消费者组中的消费者数量增加时,Kafka 会将 Topic 下的分区更均匀地分配给消费者组中的消费者,从而提高消费的并行度。
  • 消费者组的容错:如果消费者组中的某个消费者发生故障,Kafka 会将该消费者负责的分区的消息重新分配给组内的其他消费者,保证消费的连续性。

Kafka 消息分区机制

Kafka 的消息分区机制是其高性能、高可扩展性和分布式特性的重要保障。通过分区机制,Kafka 能够将数据分散到多个 Broker 上存储,并且实现并行处理,提高吞吐量和处理能力。

1. Kafka 的分区设计

Kafka 的每个 Topic 都可以分为多个分区(Partition)。每个分区是一个有序的消息队列,消息会按照顺序被写入到分区中。当生产者向 Kafka 发送消息时,Kafka 会将消息写入到某个特定的分区中,而消费者则从对应的分区中读取消息。每个分区内的消息都有一个唯一的偏移量(Offset),它是 Kafka 中用来追踪消息位置的标识。

  • Topic 分区:Kafka 中的每个 Topic 都可以分为多个分区。每个分区会分配给 Kafka 集群中的一个或多个 Broker。每个分区的消息是严格有序的,消息按照顺序写入分区,消费者读取消息时也会按照顺序处理。
    • 分区的数量:在创建 Topic 时,我们可以指定该 Topic 的分区数量。分区数量的选择影响到系统的并发处理能力和扩展性。
    • 分区的副本:每个分区会有多个副本(Replica),其中一个副本是领导者(Leader),其他副本是跟随者(Follower)。领导者负责处理所有的读写请求,跟随者副本负责同步数据。如果领导者失败,Kafka 会选举一个新的领导者,确保数据的高可用性。
2. 分区的负载均衡

Kafka 的分区机制使得消息能够被分散到多个 Broker 上,分布式存储的设计可以提供高吞吐量和可扩展性。Kafka 使用负载均衡策略来决定每个消息应该写入哪个分区。

  • 分区策略:生产者将消息发送到某个 Topic 时,需要决定将消息写入该 Topic 的哪个分区。Kafka 提供了几种分区策略:
    • 轮询(Round Robin):这是 Kafka 默认的分区策略。生产者将消息轮流发送到各个分区,不会根据消息的内容做任何决定。这样每个分区将收到大致相同数量的消息。

    • 基于 Key 的哈希分配:如果消息带有一个 key(通常是消息的某个字段),Kafka 会根据该 key 的哈希值来决定消息将被写入哪个分区。哈希算法可以确保同一个 key 的消息总是写入同一个分区,这对于确保有序消费非常重要。

      ProducerRecord<String, String> record = new ProducerRecord<>(topic, key, message);
      producer.send(record);

这种方式确保了具有相同 key 的消息始终被路由到相同的分区,从而保证它们的顺序。

    • 自定义分区策略 :生产者可以自定义分区策略,指定如何选择分区。通过实现 Partitioner 接口,可以根据消息的内容或其他信息来决定消息应该发送到哪个分区。

      public class CustomPartitioner implements Partitioner {
      @Override
      public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
      // 自定义逻辑
      }
      }

3. 分区的消息顺序

每个分区内的消息是有序的,这意味着同一个分区的消息会按生产者发送的顺序被存储和消费。但是,不同分区之间的消息是无法保证顺序的。

  • 单个分区的顺序:Kafka 保证同一个分区内的消息顺序。消费者会按照偏移量顺序消费消息,生产者也会按顺序将消息写入分区。因此,在同一个分区内的消息不会乱序。
  • 跨分区的顺序:由于消息被分配到多个分区,因此 Kafka 并不保证跨分区的消息顺序。如果一个消息被分配到不同的分区,它们之间的消费顺序是不确定的。
4. 消费者与分区的关系

Kafka 的分区机制允许消费者并行消费消息。在消费者组(Consumer Group)中,消费者会被分配到不同的分区,从而实现负载均衡和并行消费。

  • 消费者组:Kafka 中的消费者可以组成一个消费者组。在一个消费者组内,每个消费者负责消费该组内的某些分区的消息。每个分区内的消息只能被一个消费者消费,这样可以避免消息的重复消费。

  • 分区分配:Kafka 在消费者组中的分区分配是自动的。每个消费者会被分配到某些分区,分配的算法保证了消费者均匀地分担了分区的消费负载。当消费者增加或减少时,Kafka 会重新平衡分区的分配。

    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(config);
    consumer.subscribe(Arrays.asList(topic));

当消费者增加或减少时,Kafka 会自动将分区从当前消费者转移到新的消费者,确保负载均衡。

5. 分区的容错与副本

Kafka 的分区副本机制提供了高可用性和容错能力。每个分区有一个领导者副本和多个跟随者副本。

  • 副本机制:每个分区的领导者副本负责处理生产者的写入请求和消费者的读取请求。跟随者副本会从领导者副本同步数据,确保副本的数据一致性。
  • 副本的选举:如果分区的领导者副本发生故障,Kafka 会自动从跟随者副本中选举一个新的领导者,保证该分区的服务不间断。
6. 分区的扩展性

Kafka 的分区机制使得 Kafka 集群具有很高的扩展性。随着数据量的增加,Kafka 可以通过增加分区的数量来提高并发性和吞吐量。

  • 扩展分区:当一个 Topic 的分区数量不足以满足吞吐量需求时,可以通过增加分区数量来扩展。增加分区后,Kafka 会自动将新的分区分配给消费者组中的消费者。

    kafka-topics.sh --alter --topic topic_name --partitions new_partition_count --bootstrap-server broker_list

  • 横向扩展:Kafka 可以通过增加更多的 Broker 来扩展集群的存储能力和处理能力。每个 Broker 负责管理部分分区,随着 Broker 数量的增加,Kafka 可以水平扩展集群的处理能力。

Kafka 消息传递的可靠性保障

Kafka 作为一个高吞吐量、分布式的消息队列系统,能够保证在高并发和高负载下的消息传递的可靠性。为了确保消息的正确传递与持久化,Kafka 提供了一系列的机制,包括消息的持久化、消息的副本机制、消息确认机制等。这些机制共同作用,使得 Kafka 的消息传递可靠且具有高可用性。

1. 消息的持久化机制

Kafka 的消息持久化机制是保障消息可靠性的基础。所有消息都会被持久化到磁盘中,只有在消息成功写入磁盘后,Kafka 才会认为消息已被成功处理。

  • 日志文件:Kafka 中的消息会被写入到磁盘上的日志文件中,每个分区有一个对应的日志文件。这些日志文件是以顺序写入的方式存储的,因此可以保证高效的磁盘 I/O 操作。

  • 顺序写入:Kafka 对磁盘的写入是顺序的,这比随机写入更加高效。顺序写入能够减少磁盘的寻址时间,极大提高了 Kafka 的吞吐量。

  • 写入确认:Kafka 提供了生产者端的写入确认机制,确保消息在被生产者发送后被可靠地写入到磁盘。只有当消息写入成功后,Kafka 才会回复生产者确认。

    producer.send(new ProducerRecord<>(topic, key, value), new Callback() {
    public void onCompletion(RecordMetadata metadata, Exception exception) {
    if (exception != null) {
    // 处理写入失败的情况
    }
    }
    });

2. 副本机制(Replication)

Kafka 通过副本机制(Replication)来保证消息在多个节点上的冗余备份,防止单点故障,提升系统的容错性和可靠性。

  • 副本分配:每个分区都有一个领导者副本(Leader)和多个跟随者副本(Follower)。领导者副本负责处理所有的读写请求,跟随者副本负责同步领导者的日志数据。这样,即使领导者副本失败,系统仍能保证消息的可用性。

  • 同步与异步复制:Kafka 支持同步和异步的副本同步机制。同步副本会等待领导者副本确认消息写入成功后,才认为消息是成功传递的。异步副本则不会等待确认,但仍然会在后台进行数据同步。

  • 副本保证(min.insync.replicas) :Kafka 提供了 min.insync.replicas 配置项,允许用户定义一个最小的副本同步数。消息只有在至少 min.insync.replicas 个副本确认接收到消息后,才会被认为写入成功。这提高了消息的可靠性,避免了由于副本不同步而导致的数据丢失。

    min.insync.replicas=2

3. 消息确认机制

Kafka 中的消息确认机制有助于确保生产者发送的消息得到了可靠的处理,确保不会丢失数据。

  • acks 参数 :生产者通过 acks 配置项控制消息的确认机制。它定义了生产者写入消息时,必须等待多少个副本确认消息写入成功,才会认为消息写入成功。acks 的取值可以是:

    acks=all

    • acks=0:生产者不等待任何确认,发送消息后立即返回。这是最低的可靠性设置,可能导致消息丢失。
    • acks=1:生产者等待领导者副本确认消息写入成功后才返回。这是最常用的设置,提供了较好的性能和可靠性平衡。
    • acks=all (或 acks=-1):生产者等待所有同步副本确认消息写入成功后才返回。此设置保证了最强的数据一致性,但会增加延迟。
  • 消息持久化和确认 :即使设置 acks=1acks=all,消息也会先写入磁盘,然后再确认。这样即使发生了网络问题或系统崩溃,已确认的消息仍然是持久化的,不会丢失。
4. 消费者的消息确认机制

Kafka 的消费者端也提供了消息确认机制,确保消息在消费后能够得到正确的处理,避免消息丢失或重复消费。

  • 手动提交偏移量:Kafka 允许消费者手动提交消费的偏移量,以确保消费过程的可靠性。消费者在处理消息时,可以在处理成功后手动提交偏移量,表示该消息已经成功消费。

    consumer.commitSync();

  • 自动提交偏移量:消费者也可以启用自动提交偏移量的功能,Kafka 会自动提交消费者已读取的消息的偏移量。尽管这种方式简单,但可能导致消息的重复消费或丢失,因此在需要精确消息处理时,建议使用手动提交。

    consumerConfig.put("enable.auto.commit", "true");

5. 消息重试与幂等性

Kafka 提供了消息重试机制,保证即使在传输过程中发生了错误,消息也能被成功发送到目标主题。

  • 生产者重试机制 :Kafka 生产者在发送消息时,如果遇到暂时的网络问题或服务器错误,会自动重试发送消息。通过配置 retries 参数,用户可以控制最大重试次数。

    retries=3

  • 幂等性:Kafka 还提供了幂等性保障,即使生产者在发送过程中发生了重复请求,也不会导致消息重复写入到 Kafka 中。启用幂等性功能后,生产者会在发送消息时为每条消息生成唯一的标识符,从而避免重复发送消息。

    enable.idempotence=true

6. 事务保证

Kafka 提供了事务机制,允许生产者在一个事务内发送多条消息,这些消息要么全部成功,要么全部失败,保证了消息的一致性和原子性。

  • 事务生产者:生产者可以通过开启事务模式,来保证在事务内的消息写入要么全部成功,要么全部回滚。Kafka 支持跨多个分区和多个主题的事务。

    producer.initTransactions();
    try {
    producer.beginTransaction();
    producer.send(record1);
    producer.send(record2);
    producer.commitTransaction();
    } catch (ProducerFencedException | OutOfRangeException | KafkaException e) {
    producer.abortTransaction();
    }

Kafka 消息传递的顺序性保证

Kafka 是一个分布式的消息队列系统,主要优势之一是高吞吐量、可扩展性和高可用性。在消息传递的过程中,Kafka 需要考虑如何保证消息的顺序性,尤其是在分布式环境中。消息顺序性保证是 Kafka 消息传递机制的一个重要特性。虽然 Kafka 本身无法保证跨多个分区的消息顺序,但它通过精心设计的机制来保证在特定条件下,消息的顺序性得以维持。

1. 分区内消息顺序性

Kafka 保证每个分区内的消息顺序性。这意味着,如果多个消息被发送到同一个分区,它们将按照发送顺序依次存储和消费。分区内的顺序性由 Kafka 的日志存储结构来保证,消息一旦写入到分区的日志中,就不再改变顺序。

  • 顺序写入:Kafka 内部是通过顺序写入方式将消息写入磁盘,因此在同一个分区内的消息顺序会被严格保证。
  • 消费者顺序性:消费者读取消息时,从分区的开始处按顺序消费消息,确保消费顺序与写入顺序一致。消费者并不会跳过或者重排消息,只会按顺序处理。

例如,假设有如下消息被发送到 topic1 中的分区 0:

复制代码
Message 1 -> Partition 0
Message 2 -> Partition 0
Message 3 -> Partition 0

这些消息将以相同的顺序 Message 1 -> Message 2 -> Message 3 被写入磁盘,并且消费者从分区 0 中读取时,会按此顺序消费。

2. 生产者顺序性

Kafka 允许生产者控制消息的发送顺序。当消息发送到 Kafka 时,生产者可以选择将消息发送到特定的分区,从而保证这些消息的顺序。生产者通过设置消息的 key 来确保消息被发送到特定的分区。

  • 根据 Key 分配分区 :Kafka 使用分区键来将消息分配到对应的分区,生产者在发送消息时,可以指定一个 key。如果多个消息使用相同的 key,Kafka 会将它们发送到同一个分区。这样,消息在生产者端的顺序性也能在消费端得到保证。

    producer.send(new ProducerRecord<>(topic, key, value));

如果多个消息有相同的 key,它们会被发送到同一个分区,保证它们的顺序性。

  • 批量发送:在 Kafka 中,生产者可以批量发送消息,并且每个批次会被作为一个整体写入分区日志。批量消息的顺序性保证了每个批次内的消息顺序,但批次之间的顺序不一定得到保证。
3. 分区之间的顺序性

Kafka 无法跨分区保证消息顺序性。由于 Kafka 将消息按分区进行分配处理,跨分区的消息顺序并不被保证。不同分区的消息会被独立处理,且每个分区的消息顺序是独立的。因此,跨分区的消息如果依赖顺序性,就需要额外的应用层逻辑来保证。

  • 分区独立性:Kafka 将每个主题的消息划分为多个分区,每个分区的消息会独立地被处理。因此,同一主题的不同分区之间的消息顺序并不相关。
  • 跨分区顺序保证 :如果系统需要跨分区的顺序性保障,通常需要对消息的生产进行特殊设计。例如,可以通过控制生产者的 key 来确保相关的消息发送到相同的分区,从而保证顺序性。
4. 消费者顺序性

在 Kafka 中,消费者处理消息的顺序性与分区有关。每个分区的消息顺序是固定的,但消费者可能同时消费多个分区。因此,单个消费者消费多个分区的消息时,无法保证不同分区消息的顺序。如果消费者只消费单个分区,那么消费的顺序将与写入顺序一致。

  • 单个分区消费者:如果一个消费者只消费单个分区,它会按消息写入的顺序依次消费消息,从而保持顺序性。
  • 多个分区消费者:如果多个消费者消费多个分区,则无法保证跨分区的顺序性,因为每个消费者的消费顺序与分区的处理速度有关。
5. 事务和消息顺序性

Kafka 提供了事务支持,允许生产者在事务中批量发送消息,保证多个消息的原子性和顺序性。在事务内,消息的顺序性能够得到保证,直到事务提交。

  • 事务性生产者:生产者在一个事务中发送多条消息,这些消息会以原子方式提交。如果事务提交成功,所有消息会被写入 Kafka;如果事务失败,所有消息会被回滚。事务内的消息顺序性由生产者保证。

    producer.initTransactions();
    try {
    producer.beginTransaction();
    producer.send(record1);
    producer.send(record2);
    producer.commitTransaction();
    } catch (ProducerFencedException | OutOfRangeException | KafkaException e) {
    producer.abortTransaction();
    }

6. Kafka 消息顺序性的配置与调优
  • acks 配置 :生产者的 acks 配置项可以影响消息的写入确认方式,影响消息的顺序性。设置 acks=all 可以确保在所有副本同步完成后才认为消息成功写入,从而提升消息顺序的可靠性。

    acks=all

  • 分区数与并发性:增加主题的分区数可以提升并发性,但同时也可能影响顺序性,尤其是跨分区的顺序性。因此,在设计时要权衡并发性和顺序性。

相关推荐
一晌小贪欢5 小时前
Python爬虫第10课:分布式爬虫架构与Scrapy-Redis
分布式·爬虫·python·网络爬虫·python爬虫·python3
摇滚侠8 小时前
Spring Boot3零基础教程,监听 Kafka 消息,笔记78
spring boot·笔记·kafka
摇滚侠11 小时前
Spring Boot3零基础教程,Kafka 小结,笔记79
spring boot·笔记·kafka
沐浴露z13 小时前
一篇文章详解Kafka Broker
java·分布式·kafka
pythonpioneer14 小时前
Ray Tune 强大的分布式超参数调优框架
分布式·其他
笨蛋少年派15 小时前
Hadoop High Availability 简介
大数据·hadoop·分布式
一只小透明啊啊啊啊16 小时前
Java电商项目中的概念: 高并发、分布式、高可用、微服务、海量数据处理
java·分布式·微服务
兜兜风d'1 天前
RabbitMQ 七种工作模式全解析
分布式·rabbitmq
ErizJ1 天前
IM|im-service
golang·kafka·go·im·心跳检测
沐浴露z1 天前
Kafka 生产者详解(上):消息发送流程与API,分区,吞吐量与数据可靠性
java·kafka·消息队列