flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
指尖下的技术3 小时前
Kafka面试题----Kafka消息是采用Pull模式,还是Push模式
分布式·kafka
SelectDB技术团队5 小时前
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
大数据·elasticsearch·金融·doris·日志分析
码至终章5 小时前
kafka常用目录文件解析
java·分布式·后端·kafka·mq
小马爱打代码5 小时前
Kafka-常见的问题解答
分布式·kafka
weisian1515 小时前
消息队列篇--原理篇--常见消息队列总结(RabbitMQ,Kafka,ActiveMQ,RocketMQ,Pulsar)
kafka·rabbitmq·activemq
MXsoft6186 小时前
华为E9000刀箱服务器监控指标解读
大数据·运维
cr72586 小时前
MCP Server 开发实战:无缝对接 LLM 和 Elasticsearch
大数据·elasticsearch·搜索引擎
codeBrute6 小时前
Elasticsearch的经典面试题及详细解答
大数据·elasticsearch·搜索引擎
weisian1517 小时前
消息队列篇--原理篇--Pulsar和Kafka对比分析
分布式·kafka