flink时间处理语义

背景

在flink中有两种不同的时间处理语义,一种是基于算子处理时间的时间,也就是以flink的算子所在的机器的本地时间为准,一种是事件发生的实际时间,它只与事件发生时的时间有关,而与flink算子的所在的本地机器的本地时间无关

处理时间VS事件时间

我们假设有一个手机位置信息的应用不停的向flink应用提供位置信息,对于flink来说,假设不论是事件时间还是处理时间,都是以一分钟为时间窗口,此时正常情况下手机会把每秒自己的位置信息发送到flink中,这样不论是基于事件时间还是处理时间的窗口,每分钟其实都会收到60个事件,但假如我们的手机信号中断,导致本应该发送的位置信息延迟发送了,那么此时基于处理时间的窗口和基于事件时间的窗口的语义就完全不一样了,见下图

此时对于处理时间的窗口来说,前一分钟窗口可能只有少数的几个事件,而后一分钟的窗口包含了超过60个事件。

然而对于事件时间的窗口来说,由于它是基于事件发生的事件,所以可以做到正确的把这些延迟的事件也正确归类到对应的一分钟事件窗口中.

相关推荐
字节跳动数据平台20 小时前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术21 小时前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
大大大大晴天1 天前
Flink生产问题排障-HBase NotServingRegionException
flink·hbase
武子康1 天前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康2 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天2 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康4 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康5 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP6 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库6 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全