flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
咸鱼求放生6 分钟前
es在Linux安装
大数据·elasticsearch·搜索引擎
人大博士的交易之路2 小时前
今日行情明日机会——20250606
大数据·数学建模·数据挖掘·数据分析·涨停回马枪
HAPPY酷4 小时前
Kafka 和Redis 在系统架构中的位置
redis·kafka·系统架构
Leo.yuan4 小时前
数据库同步是什么意思?数据库架构有哪些?
大数据·数据库·oracle·数据分析·数据库架构
忆雾屿5 小时前
云原生时代 Kafka 深度实践:06原理剖析与源码解读
java·后端·云原生·kafka
SelectDB技术团队5 小时前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析
Web极客码7 小时前
在WordPress上添加隐私政策页面
大数据·人工智能·wordpress
TCChzp7 小时前
Kafka入门-消费者
分布式·kafka
Apache Flink7 小时前
Flink在B站的大规模云原生实践
大数据·云原生·flink
itachi-uchiha8 小时前
Docker部署Hive大数据组件
大数据·hive·docker