Kafka Offset 自动提交和手动提交 - 漏消费与重复消费

目录

[1. 引言](#1. 引言)

[2. Offset 提交方式概述](#2. Offset 提交方式概述)

[2.1 自动提交 Offset](#2.1 自动提交 Offset)

[2.2 手动提交 Offset](#2.2 手动提交 Offset)

[3. 漏消费与重复消费的问题分析](#3. 漏消费与重复消费的问题分析)

[3.1 自动提交模式下的漏消费和重复消费](#3.1 自动提交模式下的漏消费和重复消费)

漏消费

重复消费

[3.2 手动提交模式下的漏消费和重复消费](#3.2 手动提交模式下的漏消费和重复消费)

漏消费

重复消费

[4. 自动提交与手动提交的选择](#4. 自动提交与手动提交的选择)

[4.1 适用场景](#4.1 适用场景)

[4.2 配置建议](#4.2 配置建议)

[5. 代码示例](#5. 代码示例)

[5.1 自动提交示例](#5.1 自动提交示例)

[5.2 手动提交示例](#5.2 手动提交示例)

[6. 结论](#6. 结论)

参考文档


1. 引言

Kafka 是当前广泛使用的分布式消息队列系统,其强大的吞吐量和可靠性使其在实时数据流处理中广受欢迎。在 Kafka 消费过程中,Offset 是一个重要的概念,它记录了每个消费组读取消息的进度。本文将详细探讨 Kafka Offset 的自动提交和手动提交模式,并分析它们可能导致的漏消费和重复消费问题。

2. Offset 提交方式概述

2.1 自动提交 Offset

在 Kafka 中,enable.auto.commit 配置项决定是否开启自动提交。当设置为 true 时,Kafka Consumer 会定期(由 auto.commit.interval.ms 配置项指定的时间间隔)自动提交当前的 Offset。自动提交的优点是实现简单,使用方便,但缺点是可能会导致漏消费或重复消费的问题。

2.2 手动提交 Offset

手动提交 Offset 是指由程序员在消费逻辑中显式地调用提交方法(如 commitSync()commitAsync())进行 Offset 提交。手动提交提供了对 Offset 更精细的控制,能够减少漏消费和重复消费的风险,但也增加了实现的复杂性。

3. 漏消费与重复消费的问题分析

3.1 自动提交模式下的漏消费和重复消费

漏消费

在自动提交模式下,Kafka 会按固定的时间间隔提交 Offset,如果在 Offset 自动提交之后但在实际消费消息之前应用崩溃或发生其他错误,可能导致该 Offset 被提交,但实际消息并未消费。这就会造成消息的漏消费。

重复消费

自动提交可能会在消息实际处理完成之前提交 Offset。如果在 Offset 提交之后但消息处理尚未完成时应用崩溃,则在重启后,Kafka 将从已提交的 Offset 开始重新消费,导致部分消息被重复消费。

3.2 手动提交模式下的漏消费和重复消费

漏消费

在手动提交模式下,如果消息处理完成但在手动提交 Offset 之前应用崩溃或发生错误,则会导致该批次消息未被提交 Offset,从而在下次消费时从上一次提交的 Offset 开始重新消费,理论上不会导致漏消费问题。

重复消费

由于手动提交模式通常在消息处理完成后提交 Offset,因此应用崩溃可能导致上一次提交的 Offset 和实际消费的消息之间出现重复,但通过精细控制可以尽量减少重复消费的风险。

4. 自动提交与手动提交的选择

4.1 适用场景

  • 自动提交:适用于对消息偶尔漏消费或重复消费容忍度较高的场景,比如一些日志数据处理,自动提交可以简化代码逻辑。
  • 手动提交:适用于对数据一致性要求较高的场景,比如金融数据处理,手动提交可以更精细地控制消费流程,减少数据误差。

4.2 配置建议

  • 若使用 自动提交 ,应确保 auto.commit.interval.ms 设置合理,避免过长的提交间隔导致更多的重复消费。
  • 若使用 手动提交 ,应使用 commitSync() 进行同步提交,确保 Offset 成功提交;或者使用 commitAsync() 提高性能,但要处理可能的失败提交。

5. 代码示例

5.1 自动提交示例

java 复制代码
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "test-group");
props.put("enable.auto.commit", "true");
props.put("auto.commit.interval.ms", "1000");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("test-topic"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
    }
}

5.2 手动提交示例

java 复制代码
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "test-group");
props.put("enable.auto.commit", "false");  // 禁用自动提交
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("test-topic"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
    }
    // 手动同步提交
    consumer.commitSync();
}

6. 结论

Kafka Offset 的自动提交和手动提交各有优缺点,选择适合的方式需要根据具体的业务场景需求来决定。自动提交适合简单场景,但容易发生漏消费和重复消费,而手动提交提供了更高的灵活性和可靠性。

相关推荐
ZSYP-S6 分钟前
Day 15:Spring 框架基础
java·开发语言·数据结构·后端·spring
yuanbenshidiaos13 分钟前
C++----------函数的调用机制
java·c++·算法
是小崔啊31 分钟前
开源轮子 - EasyExcel01(核心api)
java·开发语言·开源·excel·阿里巴巴
黄公子学安全40 分钟前
Java的基础概念(一)
java·开发语言·python
liwulin050641 分钟前
【JAVA】Tesseract-OCR截图屏幕指定区域识别0.4.2
java·开发语言·ocr
jackiendsc1 小时前
Java的垃圾回收机制介绍、工作原理、算法及分析调优
java·开发语言·算法
Yuan_o_1 小时前
Linux 基本使用和程序部署
java·linux·运维·服务器·数据库·后端
Oneforlove_twoforjob1 小时前
【Java基础面试题027】Java的StringBuilder是怎么实现的?
java·开发语言
数据小小爬虫1 小时前
利用Java爬虫获取苏宁易购商品详情
java·开发语言·爬虫
小汤猿人类1 小时前
nacos-服务发现注册
java·开发语言·服务发现