flink 任务恢复后的kafka消费起始位置

文章目录


主要分为三种情况进行讨论,一种是有checkpoint的情况下,一种是没有checkpoint的情况下,还有一种是启用了自动提交的情况下

启用checkpoint

  • 这种最简单,offset 保存在checkpoint 中,通过数据一致性的语义不同,offset 的位置也不一样,可能刚好从上一次checkpoint保存的位置开始,也可能位置会再往前一点,会多消费数据。

禁用checkpoint

  • 没有了checkpoint ,实际上offset 就取决于enable.auto.commit,如果没有自动提交,那相当于就没有offset 记录,实际的offset 取决于这里的实始化配置,如果有自动提交,就是下一种情况。
bash 复制代码
可选值
OffsetsInitializer.earliest() - starting from the earliest offsets. This is also the default OffsetsInitializer of the KafkaSource for starting offsets.
OffsetsInitializer.latest() - starting from the latest offsets.
setStartingOffsets()

kafka 是否启用enable.auto.commit

  • 如果启用了自动提交,可以通过
bash 复制代码
OffsetsInitializer.committedOffsets() 设置起始位置,
可选值有public enum OffsetResetStrategy {
    LATEST, EARLIEST, NONE
}
从已提交的offset的最新,最开始位置提交
setStartingOffsets()

总结

  • 注意后面两种情况下,对于开始位置在代码上的设置差异。
相关推荐
Solar20255 分钟前
机械制造ToB企业获客困境与数字化解决方案架构深度解析
大数据·人工智能·架构
weixin199701080165 分钟前
马可波罗 item_search - 根据关键词获取商品列表接口对接全攻略:从入门到精通
大数据·人工智能
_ziva_12 分钟前
小白入门:手把手教你把本地代码推送到 GitHub(完整流程)
大数据·elasticsearch·搜索引擎
易晨 微盛·企微管家15 分钟前
2026企业微信AI智能客户管理指南:3步落地+行业案例
大数据·人工智能
zhangxl-jc15 分钟前
SparkStreaming消费Kafka 重启任务时重复消费数据
分布式·spark·kafka
热忱112815 分钟前
Git 全套常用命令手册(含日常开发示例)
大数据·git·elasticsearch·搜索引擎
编程彩机16 分钟前
互联网大厂Java面试:从Spring Cloud到Kafka的技术场景深度解析
java·spring cloud·微服务·kafka·技术面试
Gofarlic_OMS18 分钟前
Fluent许可证使用合规性报告自动化生成系统
java·大数据·运维·人工智能·算法·matlab·自动化
xiaolyuh12318 分钟前
Kafka、RocketMQ、RabbitMQ 事务消息核心差异对比
kafka·rabbitmq·rocketmq
AI营销前沿25 分钟前
原圈科技AI营销内容:SaaS案例创作告别低效,效率翻倍
大数据·人工智能