Flink如何基于事件时间消费分区数比算子并行度大的kafka主题

背景

使用flink消费kafka的主题的情况我们经常遇到,通常我们都是不需要感知数据源算子的并行度和kafka主题的并行度之间的关系的,但是其实在kafka的主题分区数大于数据源算子的并行度时,是有一些注意事项的,本文就来讲解下这些注意事项

flink数据源算子并行度大于kafka主题分区数

我们这里的注意事项对于即使做到配置flink数据源算子的并行度和kafka主题一样,但是有一些kafka主题没有消息发送过来的情况是一样的,这里的问题可以归结于以下两点:

1.有些kafka主题在某个时间点之后没有消息发送过来了

2.由于算子并行度大于kafka主题的分区数,有些数据源算子任务根本不会发送水位线到下一个算子任务

解决以上两个问题的方法是:

java 复制代码
WatermarkStrategy
        .<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
        .withIdleness(Duration.ofMinutes(1));

通过设置算子任务的水位线策略允许空闲的方式来做到,不过从源头上来说,为了尽可能均匀的处理数据,我们尽量设置数据源算子的并行度等于kafka的主题数

相关推荐
标书畅畅行2 小时前
钛投标标书查重系统技术架构与功能实现解析
大数据·人工智能
2401_872418782 小时前
什么是多范式编程语言?——以 C++ 为例深入理解编程范式
java·大数据·c++
Volunteer Technology3 小时前
Flink的 Side Output侧输出和 ProcessFunction
大数据·flink
roman_日积跬步-终至千里3 小时前
【SDD】高风险场景下的 SDD 最佳实践:分层风控+分级落地,约束AI编程边界
大数据·人工智能·ai编程
计算机安禾3 小时前
【算法分析与设计】第36篇:计算几何基础:凸包问题的分治与扫描线解法
大数据·人工智能·算法·机器学习·剪枝
人员安全定位3 小时前
喜报!品铂科技获2025年度电力建设科学技术进步奖
大数据·人工智能·科技
AI智图坊3 小时前
拒绝模板同质化:拆解自由生图功能,如何通过GPT-Image-2与Nano Banana Pro双模型驱动电商AIGC?
大数据·人工智能·gpt·ai作画·aigc
AI_yangxi5 小时前
短视频矩阵系统服务商
大数据·人工智能·矩阵
硅谷秋水5 小时前
SkillOpt:自演化智体技能的执行策略
大数据·人工智能·深度学习·机器学习·语言模型
智慧景区与市集主理人6 小时前
传统农场的数字化蝶变:马山百里度假区全域智慧化升级,重构乡村文旅运营逻辑
大数据·人工智能