Flink的三种时间语义

在流数据处理中,一个很重要也很常见的操作就是窗口计算。窗口计算与时间密不可分。

窗口的计算在分布式流处理环境中,可能会面临如下问题:数据由上游发送到下游的过程中,可能是跨节点传输的,而网络传输存在延迟,数据到达下游节点的时间则有先有后,则会产生乱序数据问题,如8点59分59秒产生的数据可能比9点01分01秒产生的数据后到达下游节点,那么它究竟是属于8-9点的时间窗口,还是9-10点的时间窗口呢?这就首先需要我们明确Flink中的不同时间语义。

一、事件时间

**"事件时间"语义是指数据产生的时间。**数据一旦生成,这个时间就确定了,可以作为一个时间属性嵌入到数据中,就是这条数据记录的时间戳。那么在事件时间语义下,上面8点59分59秒产生的数据在9点01分01秒到达下游节点,还应当属于8-9点的时间窗口。

通常来说,事件时间语义更符合业务计算逻辑,但是由于网络传输延迟问题,数据到达下游节点时存在乱序问题,因此要想计算8-9点的时间窗口数据,就需要等待所有8-9点生成的数据都到齐,事件时间语义以一定延迟为代价换取计算的准确性。

二、处理时间

"处理时间"语义是指数据被真正处理的时刻,很显然,这里指的是在相应处理节点机器上的系统时间。以处理时间来衡量数据属于哪个时间窗口十分方便,如上面8点59分59秒产生的数据在9点01分01秒到达下游节点,那么它就属于9-10点的时间窗口,数据能够及时的被处理,不需要等待可能的延时数据。但是处理时间不符合业务逻辑,如要计算不同时段的pv、uv,那么按照业务逻辑,这条数据应当属于8-9点的时间窗口。

处理时间语义适用于对实时性要求极高,而对数据计算的准确性要求不太高的场景。

三、摄取时间

摄取时间是指数据进入flink数据流的时间,也就是被source算子读取的时间。

相关推荐
Robot侠2 小时前
极简LLM入门指南4
大数据·python·llm·prompt·提示工程
技术钱3 小时前
vue3解决大数据加载页面卡顿问题
大数据
福客AI智能客服5 小时前
从被动响应到主动赋能:家具行业客服机器人的革新路径
大数据·人工智能
小五传输7 小时前
隔离网闸的作用是什么?新型网闸如何构筑“数字护城河”?
大数据·运维·安全
jkyy20147 小时前
AI健康医疗开放平台:企业健康业务的“新基建”
大数据·人工智能·科技·健康医疗
蚁巡信息巡查系统7 小时前
政府网站与政务新媒体检查指标抽查通报如何面对
大数据·内容运营
视界先声8 小时前
2025年GEO自动化闭环构建实践:监测工具选型与多平台反馈机制工程分享
大数据·人工智能·自动化
百***24378 小时前
GPT5.1 vs Claude-Opus-4.5 全维度对比及快速接入实战
大数据·人工智能·gpt
Hello.Reader8 小时前
Flink SQL CREATE 语句从建表到 CTAS/RTAS,一次讲清
sql·flink·linq
AI营销前沿9 小时前
私域AI首倡者韩剑,原圈科技领航AI营销
大数据·人工智能