flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

lixia0417mul22023-12-13 20:02

flink和kafka的消息组合消费模式几乎是实时流处理的标配，然后当在flink中使用事件时间处理时，需要注意kafka不同分区元素之间时间相差太大的问题，这样有可能会导致严重的数据堆积问题

我们在kafka的不同分区之间的事件的时间不能太过于极端，因为这样的话，下游的水印是由消费的分区中最小的那个事件时间元素来决定的，但是flink仍然会消费其它分区的元素，只是由于水印不满足，这些元素再向下游管道流动时会被临时缓冲起来，当这种情况很极端时，有可能把flink的作业搞崩溃