Flink如何基于事件时间消费分区数比算子并行度大的kafka主题

背景

使用flink消费kafka的主题的情况我们经常遇到,通常我们都是不需要感知数据源算子的并行度和kafka主题的并行度之间的关系的,但是其实在kafka的主题分区数大于数据源算子的并行度时,是有一些注意事项的,本文就来讲解下这些注意事项

flink数据源算子并行度大于kafka主题分区数

我们这里的注意事项对于即使做到配置flink数据源算子的并行度和kafka主题一样,但是有一些kafka主题没有消息发送过来的情况是一样的,这里的问题可以归结于以下两点:

1.有些kafka主题在某个时间点之后没有消息发送过来了

2.由于算子并行度大于kafka主题的分区数,有些数据源算子任务根本不会发送水位线到下一个算子任务

解决以上两个问题的方法是:

java 复制代码
WatermarkStrategy
        .<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
        .withIdleness(Duration.ofMinutes(1));

通过设置算子任务的水位线策略允许空闲的方式来做到,不过从源头上来说,为了尽可能均匀的处理数据,我们尽量设置数据源算子的并行度等于kafka的主题数

相关推荐
数智顾问7 分钟前
(102页PPT)数字化转型,从战略到执行(附下载方式)
大数据·人工智能·物联网
成长之路51426 分钟前
【工具变量】全国地级市旧海关DID数据(1842-1949年)
大数据
starfalling102428 分钟前
doris压缩方法_测试实践
大数据
G皮T1 小时前
【Elasticsearch】大慢查询隔离(二):选择插件
大数据·elasticsearch·搜索引擎·全文检索·插件·性能·查询
zhaodiandiandian1 小时前
生成式AI重构内容创作生态:人机协同成核心竞争力
大数据·人工智能·重构
小猪佩奇TONY1 小时前
常用软件工具的使用(1) ---- git 的安装和基础操作
大数据·git·elasticsearch
财经三剑客1 小时前
东风集团股份:11月生产量达21.6万辆 销量19.6万辆
大数据·人工智能·汽车
老蒋新思维1 小时前
创客匠人峰会新解:高势能 IP 打造 ——AI 时代知识变现的十倍增长密码
大数据·网络·人工智能·tcp/ip·创始人ip·创客匠人·知识变现
老蒋新思维1 小时前
创客匠人峰会洞察:AI 时代教育知识变现的重构 —— 从 “刷题记忆” 到 “成长赋能” 的革命
大数据·人工智能·网络协议·tcp/ip·重构·创始人ip·创客匠人
Elastic 中国社区官方博客2 小时前
在 Google MCP Toolbox for Databases 中引入 Elasticsearch 支持
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型·全文检索