flink使用事件时间时警惕kafka不同分区的事件时间倾斜问题

背景

flink和kafka的消息组合消费模式几乎是实时流处理的标配,然后当在flink中使用事件时间处理时,需要注意kafka不同分区元素之间时间相差太大的问题,这样有可能会导致严重的数据堆积问题

kafka不同分区元素事件时间差异较大导致的问题

总结

我们在kafka的不同分区之间的事件的时间不能太过于极端,因为这样的话,下游的水印是由消费的分区中最小的那个事件时间元素来决定的,但是flink仍然会消费其它分区的元素,只是由于水印不满足,这些元素再向下游管道流动时会被临时缓冲起来,当这种情况很极端时,有可能把flink的作业搞崩溃

相关推荐
敲上瘾41 分钟前
Elasticsearch从入门到实践:核心概念到Kibana测试与C++客户端封装
大数据·linux·c++·elasticsearch·搜索引擎·全文检索
api_180079054601 小时前
请求、认证与响应数据解析:1688 商品 API 接口深度探秘
java·大数据·开发语言·mysql·数据挖掘
陈果然DeepVersion1 小时前
Java大厂面试真题:Spring Boot+Kafka+AI智能客服场景全流程解析(十二)
java·spring boot·ai·kafka·面试题·向量数据库·rag
LitRad1 小时前
kafka问题解决
分布式·kafka
化作星辰1 小时前
kafka 2.X+zookeeper3.X 权限控制
kafka
陈果然DeepVersion1 小时前
Java大厂面试真题:Spring Boot+Kafka+AI智能客服场景全流程解析(九)
java·人工智能·spring boot·微服务·kafka·面试题·rag
0和1的舞者4 小时前
网络通信的奥秘:网络层ip与路由详解(四)
大数据·网络·计算机网络·计算机·智能路由器·计算机科学与技术
WLJT1231231235 小时前
九寨:在山水间触摸生活的诗意
大数据·生活
Elastic 中国社区官方博客8 小时前
在 Elasticsearch 中使用 Mistral Chat completions 进行上下文工程
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
橙色云-智橙协同研发8 小时前
从 CAD 图纸到 Excel 数据:橙色云智橙 PLM 打造制造企业数字化协同新模式
大数据·功能测试·云原生·cad·plm·云plm·bom提取