flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
半夏陌离14 小时前
SQL 拓展指南:不同数据库差异对比(MySQL/Oracle/SQL Server 基础区别)
大数据·数据库·sql·mysql·oracle·数据库架构
A小弈同学16 小时前
新规则,新游戏:AI时代下的战略重构与商业实践
大数据·人工智能·重构·降本增效·电子合同
王中阳Go17 小时前
头一次见问这么多kafka的问题
分布式·kafka
鼠鼠我捏,要死了捏17 小时前
Kafka Exactly-Once 语义深度解析与性能优化实践指南
kafka·exactly-once·performance-optimization
字节跳动数据平台17 小时前
一客一策:Data Agent 如何重构大模型时代的智能营销?
大数据·agent
boonya18 小时前
Kafka核心原理与常见面试问题解析
分布式·面试·kafka
用户Taobaoapi201418 小时前
京东图片搜索相似商品API开发指南
大数据·数据挖掘·数据分析
镭眸18 小时前
因泰立科技:用激光雷达重塑智能工厂物流生态
大数据·人工智能·科技
lifallen19 小时前
Kafka 内存池MemoryPool 设计
数据结构·kafka·apache
IT研究室20 小时前
大数据毕业设计选题推荐-基于大数据的贵州茅台股票数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata