flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
数据与人工智能律师3 小时前
数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
大数据·网络·人工智能·云计算·区块链
mykyle6 小时前
Elasticsearch-ik分析器
大数据·elasticsearch·jenkins
itLaity6 小时前
基于Kafka实现简单的延时队列
spring boot·分布式·kafka
weixin_lynhgworld7 小时前
淘宝扭蛋机小程序系统开发:重塑电商互动模式
大数据·小程序
RPA+AI十二工作室9 小时前
影刀RPA_Temu关键词取数_源码解读
大数据·自动化·源码·rpa·影刀
Sui_Network10 小时前
探索 Sui 上 BTCfi 的各类资产
大数据·人工智能·科技·游戏·区块链
大数据张老师11 小时前
用 AI 做数据分析:从“数字”里挖“规律”
大数据·人工智能
博闻录12 小时前
以 “有机” 重构增长:云集从电商平台到健康生活社区的跃迁
大数据·重构·生活
nbsaas-boot14 小时前
收银系统优惠功能架构:可扩展设计指南(含可扩展性思路与落地细节)
java·大数据·运维