Kafka 中的偏移量是什么?它解决了哪些问题?

在 Kafka 中,偏移量(offset)是为分区中的每条记录(消息)分配的唯一标识符。偏移量是 Kafka 用来维护分区内消息顺序的连续整数。它们帮助生产者、消费者和代理(broker)追踪消息在分区中的具体位置。

Kafka 中的偏移量工作原理
生产者行为:

生产者将消息写入特定主题的分区。每条新消息都会被追加到日志中,Kafka 会为其分配下一个连续的偏移量。

生产者并不直接管理偏移量,这一过程由 Kafka 自动处理。

消费者行为:

消费者从分区中获取消息,并负责提交偏移量。

  • 已提交偏移量(Committed Offset) :消费者成功处理的最后偏移量。

    消费者可以指定开始读取的偏移量:

  • 最早(Earliest):从分区的开头开始读取。

  • 最新(Latest):仅读取新消息。

代理的角色:

代理将消息及其关联的偏移量存储在日志中。偏移量在分区内是不可变的且唯一的。

实时示例:支付处理系统

场景:一个电子商务系统使用 Kafka 处理支付交易。

    1. 主题(Topic)payment-transactions

    包含支付请求,每条支付记录包括交易 ID(transactionId)、金额(amount)和状态(status)等详情。

    1. 分区(Partitions)

    假设该主题有 3 个分区以实现负载均衡:

  • • 分区 0:偏移量 [0, 1, 2, 3...]

  • • 分区 1:偏移量 [0, 1, 2, 3...]

  • • 分区 2:偏移量 [0, 1, 2, 3...]

    1. 生产者(Producer)

    支付网关生产者将支付请求写入 Kafka,消息分布在各个分区中。

    1. 消费者(Consumers)

    支付处理微服务中的消费者读取消息以处理支付:

    • • 消费者 A 处理分区 0。

    • • 消费者 B 处理分区 1。

    • • 消费者 C 处理分区 2。

    1. 偏移量追踪
    • 处理后提交:每次处理完一条支付记录后,消费者提交最后成功处理的消息的偏移量。

    • • 如果消费者在处理分区 0 的偏移量 3 后失败,下一个消费者(或重启后)将从偏移量 4 继续。

    偏移量管理及示例

    Kafka 提供两种偏移量管理策略:

      1. 自动偏移量管理(默认)

      Kafka 以固定间隔自动提交偏移量。
      风险:即使消息未被处理,也可能被标记为已处理。

      1. 手动偏移量管理

      消费者在处理消息后显式提交偏移量。

      提供更多控制权并保证处理完成。

    以下是手动偏移量管理的代码示例:

    go 复制代码
    import org.apache.kafka.clients.consumer.ConsumerRecord;
    import org.apache.kafka.clients.consumer.ConsumerRecords;
    import org.apache.kafka.clients.consumer.KafkaConsumer;
    
    import java.time.Duration;
    import java.util.Collections;
    import java.util.Properties;
    
    publicclassManualOffsetExample {
        publicstaticvoidmain(String[] args) {
            Propertiesprops=newProperties();
            props.put("bootstrap.servers", "localhost:9092");
            props.put("group.id", "payment-group");
            props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
            props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
            props.put("enable.auto.commit", "false"); // 禁用自动提交
    
            KafkaConsumer<String, String> consumer = newKafkaConsumer<>(props);
            consumer.subscribe(Collections.singletonList("payment-transactions"));
    
            try {
                while (true) {
                    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
                    for (ConsumerRecord<String, String> record : records) {
                        System.out.printf("Processing transaction with offset %d: %s%n", 
                            record.offset(), record.value());
                        
                        // 此处添加业务逻辑,例如处理支付
                        
                        // 处理完成后手动提交偏移量
                        consumer.commitSync();
                    }
                }
            } finally {
                consumer.close();
            }
        }
    }
    偏移量管理的优势
      1. 可重放性(Replayability)

      Kafka 允许消费者通过重置偏移量重新读取消息,例如重新处理失败的交易。

      1. 并行性(Parallelism)

      在分区主题中,消费者可以独立管理偏移量,实现可扩展的并行处理。

      1. 容错性(Fault Tolerance)

      如果消费者失败,另一个消费者可以从最后提交的偏移量继续处理。

    实时问题:消费者失败

    场景

    • • 一个支付消费者在处理分区 0 的偏移量 4 后崩溃。

    • • 消费者组的另一个实例接管并从偏移量 4 恢复处理。

相关推荐
网安INF1 小时前
CVE-2023-25194源码分析与漏洞复现(Kafka JNDI注入)
java·web安全·网络安全·kafka·漏洞·jndi注入
观无2 小时前
redis分布式锁
数据库·redis·分布式
颜淡慕潇2 小时前
Redis 实现分布式锁:深入剖析与最佳实践(含Java实现)
java·redis·分布式
啾啾Fun4 小时前
【Java微服务组件】分布式协调P4-一文打通Redisson:从API实战到分布式锁核心源码剖析
java·redis·分布式·微服务·lua·redisson
记得开心一点嘛12 小时前
使用MinIO搭建自己的分布式文件存储
分布式·spring cloud·minio
纪元A梦13 小时前
分布式拜占庭容错算法——PBFT算法深度解析
java·分布式·算法
HAPPY酷15 小时前
Kafka 和Redis 在系统架构中的位置
redis·kafka·系统架构
忆雾屿16 小时前
云原生时代 Kafka 深度实践:06原理剖析与源码解读
java·后端·云原生·kafka
TCChzp18 小时前
Kafka入门-消费者
分布式·kafka
FakeOccupational21 小时前
【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构 & 定向转发机制
笔记·分布式·p2p