Flink如何基于事件时间消费分区数比算子并行度大的kafka主题

背景

使用flink消费kafka的主题的情况我们经常遇到,通常我们都是不需要感知数据源算子的并行度和kafka主题的并行度之间的关系的,但是其实在kafka的主题分区数大于数据源算子的并行度时,是有一些注意事项的,本文就来讲解下这些注意事项

flink数据源算子并行度大于kafka主题分区数

我们这里的注意事项对于即使做到配置flink数据源算子的并行度和kafka主题一样,但是有一些kafka主题没有消息发送过来的情况是一样的,这里的问题可以归结于以下两点:

1.有些kafka主题在某个时间点之后没有消息发送过来了

2.由于算子并行度大于kafka主题的分区数,有些数据源算子任务根本不会发送水位线到下一个算子任务

解决以上两个问题的方法是:

java 复制代码
WatermarkStrategy
        .<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
        .withIdleness(Duration.ofMinutes(1));

通过设置算子任务的水位线策略允许空闲的方式来做到,不过从源头上来说,为了尽可能均匀的处理数据,我们尽量设置数据源算子的并行度等于kafka的主题数

相关推荐
选择不变1 小时前
飞云做多平线指标-蓝柱抄底-绿柱洗盘-平线拉升和持股跟踪,指标图文教程
大数据·通达信指标公式·炒股技巧·短线指标·孟飞云指标
海滩游侠2 小时前
miniagent dive deep 1 安装指南
大数据·elasticsearch·搜索引擎
AI周红伟2 小时前
大模型部署入门教程,消费级显卡跑通Qwen3.5-Plus,最低配置部署教程,不能在简单了
大数据·人工智能·大模型·智能体
海兰2 小时前
ES 9.x 中文 NER 推理 API + 管道配置方案
大数据·elasticsearch·搜索引擎
赵谨言2 小时前
基于Python的汽车CAN总线报文格式转换系统的设计与实现
大数据·开发语言·经验分享·笔记·python
沪漂阿龙3 小时前
大模型推理成本与优化技术全景解析:从显存估算到Continuous Batching
大数据·人工智能
W133309089073 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
海兰3 小时前
ES_QL 稠密向量检索:本地部署实操
大数据·elasticsearch·搜索引擎
TDengine (老段)3 小时前
TDengine IDMP 高级功能——计量单位
大数据·数据库·物联网·时序数据库·tdengine·涛思数据