flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
萤丰信息2 小时前
智慧园区能源革命:从“耗电黑洞”到零碳样本的蜕变
java·大数据·人工智能·科技·安全·能源·智慧园区
中科岩创8 小时前
河北某铁矿绿色矿山建设二期自动化监测项目
大数据
❀͜͡傀儡师10 小时前
docker 部署Flink和传统部署
docker·容器·flink
java水泥工11 小时前
基于Echarts+HTML5可视化数据大屏展示-物流大数据展示
大数据·前端·echarts·html5·可视化大屏
paperxie_xiexuo11 小时前
学术与职场演示文稿的结构化生成机制探析:基于 PaperXie AI PPT 功能的流程解构与适用性研究
大数据·数据库·人工智能·powerpoint
汤姆yu12 小时前
基于大数据的出行方式推荐系统
大数据·出行方式推荐
bigdata-rookie12 小时前
Spark 部署模式
大数据·分布式·spark
芝麻开门-新起点13 小时前
贝壳GIS数据存储与房屋3D展示技术解析
大数据
玖日大大13 小时前
Gemini 3 全维度技术解析:从认知到落地实战指南
大数据