Flink如何基于事件时间消费分区数比算子并行度大的kafka主题

背景

使用flink消费kafka的主题的情况我们经常遇到,通常我们都是不需要感知数据源算子的并行度和kafka主题的并行度之间的关系的,但是其实在kafka的主题分区数大于数据源算子的并行度时,是有一些注意事项的,本文就来讲解下这些注意事项

flink数据源算子并行度大于kafka主题分区数

我们这里的注意事项对于即使做到配置flink数据源算子的并行度和kafka主题一样,但是有一些kafka主题没有消息发送过来的情况是一样的,这里的问题可以归结于以下两点:

1.有些kafka主题在某个时间点之后没有消息发送过来了

2.由于算子并行度大于kafka主题的分区数,有些数据源算子任务根本不会发送水位线到下一个算子任务

解决以上两个问题的方法是:

java 复制代码
WatermarkStrategy
        .<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
        .withIdleness(Duration.ofMinutes(1));

通过设置算子任务的水位线策略允许空闲的方式来做到,不过从源头上来说,为了尽可能均匀的处理数据,我们尽量设置数据源算子的并行度等于kafka的主题数

相关推荐
Hello.Reader2 分钟前
Flink JobStatusChangedListener把作业状态变化 + Lineage 发到 DataHub / OpenLineage
大数据·flink
Jouham7 分钟前
中小微企业AI获客痛点解析:瞬维智能如何用“自动化+精准度”破局
大数据·人工智能·自动化
Hello.Reader18 分钟前
Flink External Resource Framework让作业“原生”申请 GPU/FPGA 等外部资源
大数据·fpga开发·flink
AC赳赳老秦21 分钟前
轻量化模型浪潮下的关键技术突破:DeepSeek INT4量化优化引领2026端侧算力新纪元
网络·安全·mongodb·web安全·flink·prometheus·deepseek
菜鸟小芯42 分钟前
从“会聊天”到“能做事”:AI Agent(AI 智能体)的技术革命与落地实践
大数据·人工智能
龙山云仓1 小时前
No155:AI中国故事-对话宋应星——天工开物与AI造物:格物穷理与经世致用
大数据·人工智能·深度学习
Hello.Reader1 小时前
Flink History Server 集群停了也能看已完成作业的 Web UI 与 REST 数据
大数据·flink
赵谨言1 小时前
基于Python和ArcPy的不动产数据入库技术与运用
大数据·开发语言·经验分享·python
一条咸鱼_SaltyFish2 小时前
Elasticsearch索引规划:从字段类型到分片策略的实战思考
大数据·elasticsearch·搜索引擎·全文检索·后端开发·分片策略·索引规划
海兰2 小时前
Elasticsearch 9.3.0 系统日志采集详解
大数据·elasticsearch·搜索引擎