Flink的三种时间语义

在流数据处理中,一个很重要也很常见的操作就是窗口计算。窗口计算与时间密不可分。

窗口的计算在分布式流处理环境中,可能会面临如下问题:数据由上游发送到下游的过程中,可能是跨节点传输的,而网络传输存在延迟,数据到达下游节点的时间则有先有后,则会产生乱序数据问题,如8点59分59秒产生的数据可能比9点01分01秒产生的数据后到达下游节点,那么它究竟是属于8-9点的时间窗口,还是9-10点的时间窗口呢?这就首先需要我们明确Flink中的不同时间语义。

一、事件时间

**"事件时间"语义是指数据产生的时间。**数据一旦生成,这个时间就确定了,可以作为一个时间属性嵌入到数据中,就是这条数据记录的时间戳。那么在事件时间语义下,上面8点59分59秒产生的数据在9点01分01秒到达下游节点,还应当属于8-9点的时间窗口。

通常来说,事件时间语义更符合业务计算逻辑,但是由于网络传输延迟问题,数据到达下游节点时存在乱序问题,因此要想计算8-9点的时间窗口数据,就需要等待所有8-9点生成的数据都到齐,事件时间语义以一定延迟为代价换取计算的准确性。

二、处理时间

"处理时间"语义是指数据被真正处理的时刻,很显然,这里指的是在相应处理节点机器上的系统时间。以处理时间来衡量数据属于哪个时间窗口十分方便,如上面8点59分59秒产生的数据在9点01分01秒到达下游节点,那么它就属于9-10点的时间窗口,数据能够及时的被处理,不需要等待可能的延时数据。但是处理时间不符合业务逻辑,如要计算不同时段的pv、uv,那么按照业务逻辑,这条数据应当属于8-9点的时间窗口。

处理时间语义适用于对实时性要求极高,而对数据计算的准确性要求不太高的场景。

三、摄取时间

摄取时间是指数据进入flink数据流的时间,也就是被source算子读取的时间。

相关推荐
极客113 小时前
数字智慧方案6169丨智慧医院后勤管理解决方案(58页PPT)(文末有下载方式)
大数据
豪越大豪4 小时前
豪越科技消防立库方案:实现应急物资高效管理
大数据·运维
m0_377595907 小时前
Flinkcdc 实现 MySQL 写入 Doris
mysql·flink·doris·flinkcdc
yyywoaini~11 小时前
如何搭建spark yarn 模式的集群集群
大数据
小咕聊编程11 小时前
【含文档+PPT+源码】基于大数据的交通流量预测系统
大数据·python·django
BD_Marathon13 小时前
Anaconda中配置Pyspark的Spark开发环境
大数据·分布式·spark
james的分享14 小时前
Flink之DataStream
flink·实时计算·流式处理
lisacumt14 小时前
【jceks】使用keytool和hadoop credential生成和解析jceks文件(无密码storepass)
大数据·hadoop·分布式
北随琛烬入15 小时前
Spark(23)Spark集群搭建之Yarn模式
大数据·spark
xbhog17 小时前
Java大厂硬核面试:Flink流处理容错、Pomelo JVM调优、MyBatis二级缓存穿透防护与Kubernetes服务网格实战解析
websocket·flink·kubernetes·mybatis·graalvm·springcloud·java面试