flink时间处理语义

背景

在flink中有两种不同的时间处理语义,一种是基于算子处理时间的时间,也就是以flink的算子所在的机器的本地时间为准,一种是事件发生的实际时间,它只与事件发生时的时间有关,而与flink算子的所在的本地机器的本地时间无关

处理时间VS事件时间

我们假设有一个手机位置信息的应用不停的向flink应用提供位置信息,对于flink来说,假设不论是事件时间还是处理时间,都是以一分钟为时间窗口,此时正常情况下手机会把每秒自己的位置信息发送到flink中,这样不论是基于事件时间还是处理时间的窗口,每分钟其实都会收到60个事件,但假如我们的手机信号中断,导致本应该发送的位置信息延迟发送了,那么此时基于处理时间的窗口和基于事件时间的窗口的语义就完全不一样了,见下图

此时对于处理时间的窗口来说,前一分钟窗口可能只有少数的几个事件,而后一分钟的窗口包含了超过60个事件。

然而对于事件时间的窗口来说,由于它是基于事件发生的事件,所以可以做到正确的把这些延迟的事件也正确归类到对应的一分钟事件窗口中.

相关推荐
君不见,青丝成雪25 分钟前
网关整合验签
大数据·数据结构·docker·微服务·系统架构
茗鹤APS和MES6 小时前
APS高级计划排程:汽车零部件厂生产排产的智慧之选
大数据·制造·精益生产制造·aps高级排程系统
蒙特卡洛的随机游走6 小时前
Spark的persist和cache
大数据·分布式·spark
蒙特卡洛的随机游走6 小时前
Spark 中 distribute by、sort by、cluster by 深度解析
大数据·分布式·spark
梦里不知身是客116 小时前
Spark中的宽窄依赖-宽窄巷子
大数据·分布式·spark
化作星辰7 小时前
java 给鉴权kafka2.7(sasl)发送消息权限异常处理
java·大数据·开发语言·kafka
user_admin_god7 小时前
企业级管理系统的站内信怎么轻量级优雅实现
java·大数据·数据库·spring boot
mengml_smile7 小时前
大数据生态Sql引擎
大数据
isNotNullX11 小时前
怎么用数据仓库来进行数据治理?
大数据·数据库·数据仓库·数据治理
HitpointNetSuite11 小时前
连锁餐饮行业ERP系统如何选择?
大数据·数据库·oracle·netsuite·erp