如何系列 如何确保 Kafka 消息的顺序性

文章目录

为了确保 Kafka 消息的顺序性,我们需要考虑几个重要方面。以下是详细的说明:

单分区内消息有序性

Kafka 保证同一分区内的消息是有序的。生产者发送到同一分区的消息会按发送的顺序存储,消费者从同一分区读取消息时也会按存储的顺序读取。因此,只要所有相关消息都发送到同一分区,就能保证消息的顺序性。

分区键(Partition Key)

在发送消息时,可以指定一个分区键。Kafka 使用分区键来确定消息应该发送到哪个分区。通过对相关消息使用相同的分区键,确保这些消息会发送到同一个分区,从而保证它们的顺序性。

生产者配置

Kafka 1.x 版本之前

在 Kafka 1.x 版本之前,保证单分区内消息有序的条件如下:

  • max.in.flight.requests.per.connection=1:这意味着在接收服务器确认之前,生产者只能发送一个未确认的请求,从而确保消息顺序。
Kafka 1.x 及以后版本

在 Kafka 1.x 及以后版本,保证单分区内消息有序的条件如下:

  • 开启幂等性(enable.idempotence=true)
    • max.in.flight.requests.per.connection ≤ 5:Kafka 服务端会缓存生产者发来的最近 5 个请求的元数据,从而确保这些请求的数据有序。
  • 未开启幂等性
    • max.in.flight.requests.per.connection=1:与 Kafka 1.x 之前的版本类似,这也确保消息顺序。

此外,设置 acks 为 "all" 可以确保所有副本都确认接收到消息,从而提供更强的一致性保证。

消费者配置

消费者从同一分区读取消息是按顺序读取的。使用自动提交(enable.auto.commit)或手动提交偏移量,确保消息处理的顺序性和一致性。

幂等消息

在 Kafka 中,生产者默认不是幂等性的,但可以通过配置使其成为幂等性生产者。这在 Kafka 0.11.0.0 版本中引入,设置幂等性的方法如下:

复制代码
javaCopy codeProperties props = new Properties();
props.put("enable.idempotence", "true");

启用幂等性后,生产者自动升级为幂等性生产者,Kafka 自动处理消息的重复去重。

局部幂等

幂等性仅在单分区和单会话中有效。也就是说,它只能保证单个主题的单个分区上不出现重复消息,并且仅在生产者进程的一次运行期间有效。

全局幂等

为了实现全局幂等性,需要结合业务逻辑和外部存储(如数据库)来确保跨会话和跨分区的消息幂等性。这需要在应用层进行额外的处理,如消息去重逻辑。

示例代码

以下是一个配置示例,展示了如何在生产者中设置这些参数以确保消息顺序性:

java 复制代码
javaCopy codeProperties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("acks", "all");
props.put("enable.idempotence", "true");
props.put("max.in.flight.requests.per.connection", "5");

KafkaProducer<String, String> producer = new KafkaProducer<>(props);

String topic = "your_topic";
String key = "your_partition_key";
String value = "your_message";

ProducerRecord<String, String> record = new ProducerRecord<>(topic, key, value);
producer.send(record);

producer.close();

通过以上配置和代码,Kafka 可以确保消息在同一分区内的顺序性。

相关推荐
州周1 小时前
kafka副本同步时HW和LEO
分布式·kafka
爱的叹息3 小时前
主流数据库的存储引擎/存储机制的详细对比分析,涵盖关系型数据库、NoSQL数据库和分布式数据库
数据库·分布式·nosql
程序媛学姐3 小时前
SpringKafka错误处理:重试机制与死信队列
java·开发语言·spring·kafka
千层冷面3 小时前
RabbitMQ 发送者确认机制详解
分布式·rabbitmq·ruby
ChinaRainbowSea3 小时前
3. RabbitMQ 的(Hello World) 和 RabbitMQ 的(Work Queues)工作队列
java·分布式·后端·rabbitmq·ruby·java-rabbitmq
敖正炀4 小时前
基于RocketMQ的可靠消息最终一致性分布式事务解决方案
分布式
一條狗5 小时前
随笔 20250402 分布式 ID 生成器 Snowflake 里面的坑
分布式
小马爱打代码5 小时前
Kubernetes 中部署 Ceph,构建高可用分布式存储服务
分布式·ceph·kubernetes
码熔burning5 小时前
【Spring Cloud Alibaba】:Nacos 入门讲解
分布式·spring cloud·微服务
低头不见18 小时前
一个服务器算分布式吗,分布式需要几个服务器
运维·服务器·分布式