flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
Data_agent1 分钟前
Pantherbuy模式淘宝 / 1688 代购系统(欧美市场)搭建指南
大数据·python·产品经理
Suahi1 分钟前
【HuggingFace LLM】规范化与预分词(BPE、WordPiece以及Unigram)
大数据·人工智能
大厂技术总监下海5 分钟前
从Hadoop MapReduce到Apache Spark:一场由“磁盘”到“内存”的速度与范式革命
大数据·hadoop·spark·开源
元智启6 分钟前
企业 AI 应用进入 “能力解耦时代”:模块化重构 AI 落地新范式
大数据·人工智能·重构
小真zzz6 分钟前
【2026新体验】ChatPPT的AI智能路演评测:PPT总结和问答都变的易如反掌
大数据·人工智能·ai·powerpoint·ppt·chatppt
wenzhangli77 分钟前
Ooder SkillFlow:破解 AI 编程冲击,重构企业级开发全流程
大数据·人工智能
H79987424216 分钟前
ERP管理系统软件推荐:聚焦中小制造,三款高适配MES系统深度对比与选择策略
大数据·人工智能·制造
China_Yanhy18 分钟前
后端开发者的 AWS 大数据指南:从 RDS 到 Data Lake
大数据·云计算·aws
乐迪信息24 分钟前
乐迪信息:防止船舶误入禁航区:AI偏航检测精准干预
大数据·运维·人工智能·物联网·安全
新猿一马30 分钟前
Spring Kafka核心参数说明
kafka