Flink如何基于事件时间消费分区数比算子并行度大的kafka主题

背景

使用flink消费kafka的主题的情况我们经常遇到,通常我们都是不需要感知数据源算子的并行度和kafka主题的并行度之间的关系的,但是其实在kafka的主题分区数大于数据源算子的并行度时,是有一些注意事项的,本文就来讲解下这些注意事项

flink数据源算子并行度大于kafka主题分区数

我们这里的注意事项对于即使做到配置flink数据源算子的并行度和kafka主题一样,但是有一些kafka主题没有消息发送过来的情况是一样的,这里的问题可以归结于以下两点:

1.有些kafka主题在某个时间点之后没有消息发送过来了

2.由于算子并行度大于kafka主题的分区数,有些数据源算子任务根本不会发送水位线到下一个算子任务

解决以上两个问题的方法是:

java 复制代码
WatermarkStrategy
        .<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
        .withIdleness(Duration.ofMinutes(1));

通过设置算子任务的水位线策略允许空闲的方式来做到,不过从源头上来说,为了尽可能均匀的处理数据,我们尽量设置数据源算子的并行度等于kafka的主题数

相关推荐
D愿你归来仍是少年15 小时前
Apache Spark Real-Time Mode 深度解析:打破微批次壁垒,挑战 Flink 的实时王座
flink·spark·apache
jerryinwuhan15 小时前
Spark 安装配置1
大数据·分布式·spark
wanhengidc15 小时前
网页版云手机的功能
大数据·运维·服务器·分布式·科技·智能手机
ℒℴѵℯ陆·离ꦿ໊ོﻬ°15 小时前
Git误操作急救手册
大数据·elasticsearch·搜索引擎
珠海西格电力16 小时前
5G+物联网,零碳园区管理系统的“信息高速路”
大数据·人工智能·物联网·算法·5g
AIDF202616 小时前
多卡推理性能下降如何定位:通信拓扑与 Profiling 实战
大数据·人工智能
海南java第二人16 小时前
Flink状态后端与容错机制深度剖析:TB级状态下的高可用实战
java·spring·flink
狒狒热知识16 小时前
2026企业新闻发稿全景趋势洞察,品牌推广平台核心优选指南
大数据·人工智能
跨境卫士—小依16 小时前
多币种回款周期拉长如何用资金计划防止现金流吃紧
大数据·人工智能·跨境电商·跨境·营销策略
董可伦16 小时前
Flink DataStream2Table 总结
服务器·python·flink