flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
m0_7482475539 分钟前
重学SpringBoot3-整合 Elasticsearch 8.x (二)使用Repository
大数据·elasticsearch·jenkins
南宫文凯1 小时前
Hadoop-HA(高可用)机制
大数据·hadoop·分布式·hadoop-ha
乐享数科1 小时前
乐享数科:供应链金融—三个不同阶段的融资模式
大数据·人工智能·金融
程序员古德1 小时前
《论大数据处理架构及其应用》审题技巧 - 系统架构设计师
大数据·应用·论文写作·lambda架构·处理架构
小赖同学啊3 小时前
jmeter 与大数据生态圈中的服务进行集成
大数据·jmeter
闲人编程3 小时前
Spark单机快速入门:从部署到数据分析实战
大数据
天天向上杰3 小时前
简识MQ之Kafka、ActiveMQ、RabbitMQ、RocketMQ传递机制
kafka·rabbitmq·rocketmq·activemq
刀客1234 小时前
kafka基本知识
分布式·kafka
m0_748256345 小时前
重学SpringBoot3-整合 Elasticsearch 8.x (一)客户端方式
大数据·elasticsearch·jenkins
nangonghen6 小时前
flink operator v1.10部署flink v1.19.2
大数据·flink·flink operator