Flink的三种时间语义

在流数据处理中,一个很重要也很常见的操作就是窗口计算。窗口计算与时间密不可分。

窗口的计算在分布式流处理环境中,可能会面临如下问题:数据由上游发送到下游的过程中,可能是跨节点传输的,而网络传输存在延迟,数据到达下游节点的时间则有先有后,则会产生乱序数据问题,如8点59分59秒产生的数据可能比9点01分01秒产生的数据后到达下游节点,那么它究竟是属于8-9点的时间窗口,还是9-10点的时间窗口呢?这就首先需要我们明确Flink中的不同时间语义。

一、事件时间

**"事件时间"语义是指数据产生的时间。**数据一旦生成,这个时间就确定了,可以作为一个时间属性嵌入到数据中,就是这条数据记录的时间戳。那么在事件时间语义下,上面8点59分59秒产生的数据在9点01分01秒到达下游节点,还应当属于8-9点的时间窗口。

通常来说,事件时间语义更符合业务计算逻辑,但是由于网络传输延迟问题,数据到达下游节点时存在乱序问题,因此要想计算8-9点的时间窗口数据,就需要等待所有8-9点生成的数据都到齐,事件时间语义以一定延迟为代价换取计算的准确性。

二、处理时间

"处理时间"语义是指数据被真正处理的时刻,很显然,这里指的是在相应处理节点机器上的系统时间。以处理时间来衡量数据属于哪个时间窗口十分方便,如上面8点59分59秒产生的数据在9点01分01秒到达下游节点,那么它就属于9-10点的时间窗口,数据能够及时的被处理,不需要等待可能的延时数据。但是处理时间不符合业务逻辑,如要计算不同时段的pv、uv,那么按照业务逻辑,这条数据应当属于8-9点的时间窗口。

处理时间语义适用于对实时性要求极高,而对数据计算的准确性要求不太高的场景。

三、摄取时间

摄取时间是指数据进入flink数据流的时间,也就是被source算子读取的时间。

相关推荐
Fnetlink116 分钟前
企业SDWAN供应商
大数据
galaxylove35 分钟前
Gartner发布创新洞察:AI SOC智能体加速通信运营商安全运营转型
大数据·人工智能·安全
甩手网软件1 小时前
Shopee2026新规:费率重构与履约收紧下,卖家如何破局?
大数据·人工智能
lizhihai_991 小时前
股市学习心得-AI 产业链核心标的梳理清单
大数据·服务器·人工智能·科技·学习
ha_lydms1 小时前
AnalyticDB分区、分布键性能优化
android·大数据·分布式·性能优化·分布式计算·分区·analyticdb
dingzd951 小时前
跨境社媒运营越到后面 越比拼账号的表达稳定性
大数据·人工智能·矩阵·内容营销
嘉子的秃头日记2 小时前
TRO 2026|轮椅也能“猜到”用户想往哪走?
大数据·人工智能·机器学习
2601_957190902 小时前
极致裸眼沉浸!飞行影院重塑文旅游玩新体验
大数据·人工智能·旅游
阿乔外贸日记3 小时前
埃塞俄比亚出口全流程注意事项
大数据·人工智能·智能手机·云计算·汽车
中讯慧通3 小时前
无人机靠什么实时传画面?图传电台传输数据全明细
大数据·机器人·无人机