Flink的三种时间语义

小刘鸭!2024-12-27 23:45

在流数据处理中，一个很重要也很常见的操作就是窗口计算。窗口计算与时间密不可分。

窗口的计算在分布式流处理环境中，可能会面临如下问题：数据由上游发送到下游的过程中，可能是跨节点传输的，而网络传输存在延迟，数据到达下游节点的时间则有先有后，则会产生乱序数据问题，如8点59分59秒产生的数据可能比9点01分01秒产生的数据后到达下游节点，那么它究竟是属于8-9点的时间窗口，还是9-10点的时间窗口呢？这就首先需要我们明确Flink中的不同时间语义。

一、事件时间

**"事件时间"语义是指数据产生的时间。**数据一旦生成，这个时间就确定了，可以作为一个时间属性嵌入到数据中，就是这条数据记录的时间戳。那么在事件时间语义下，上面8点59分59秒产生的数据在9点01分01秒到达下游节点，还应当属于8-9点的时间窗口。

通常来说，事件时间语义更符合业务计算逻辑，但是由于网络传输延迟问题，数据到达下游节点时存在乱序问题，因此要想计算8-9点的时间窗口数据，就需要等待所有8-9点生成的数据都到齐，事件时间语义以一定延迟为代价换取计算的准确性。

二、处理时间

"处理时间"语义是指数据被真正处理的时刻，很显然，这里指的是在相应处理节点机器上的系统时间。以处理时间来衡量数据属于哪个时间窗口十分方便，如上面8点59分59秒产生的数据在9点01分01秒到达下游节点，那么它就属于9-10点的时间窗口，数据能够及时的被处理，不需要等待可能的延时数据。但是处理时间不符合业务逻辑，如要计算不同时段的pv、uv，那么按照业务逻辑，这条数据应当属于8-9点的时间窗口。

处理时间语义适用于对实时性要求极高，而对数据计算的准确性要求不太高的场景。

三、摄取时间

摄取时间是指数据进入flink数据流的时间，也就是被source算子读取的时间。