Flink如何处理迟到数据?

在flink中进行窗口计算时,由于乱序流数据的问题,往往会出现迟到数据,迟到数据未参与所属窗口的计算会对计算结果的准确性产生影响,对此,Flink有如下三种方法来保障结果的准确性。

(1)水位线的延迟

对于乱序流数据,水位线可以设置延迟 Flink的Watermark水位线详解-CSDN博客,但一般不宜将延迟时间设置的过大,否则流处理的实时性将会大大降低。因此还是会有迟到数据。

(2)窗口允许处理迟到数据

当水位线到达窗口结束时间时,默认窗口会关闭,之后来的数据就会被丢弃了,因此可以延迟窗口的关闭时间 。具体而言:在设置了水位线延迟的基础上,大部分的迟到数据已经能够被正确处理了,因此水位线到达窗口结束时间时,先触发计算,得到一个近似正确的结果,但窗口不会关闭,之后每来一个迟到数据,就再触发窗口计算,不断修正计算结果并输出。这就类似lambda架构。可以通过对windowedStream(对datastream调用window分配窗口后就是windowedStream)调用allowedLateness方法设置等待时间。

(3)迟到数据放入窗口侧输出流

即使有了上述的双重保障,但由于窗口不能一直等待,总会关闭,最终还是可能会有丢失数据,这时候该怎么办呢?Flink还提供了一种解决方法:将窗口关闭之后到来的迟到数据收集到侧输出流,保证数据不丢失。之后获取侧输出流中的数据,判断所属窗口,手动对结果进行更行,保证最终结果一定时正确的。

具体实现时对windowedStream调用sideOutoutLateData()方法,传入一个输出标签OutputTag用来标记是迟到数据流即可。基于窗口处理完成之后的datastream调用getSideOutput方法,传入对应的OutputTag即可获取迟到数据流进行后续处理。

相关推荐
WoShop商城源码7 分钟前
武汉迅狐科技:AI赋能企业营销,打造智能获客新范式
大数据·人工智能·科技
Andya_net11 分钟前
Elasticsearch | ES索引模板、索引和索引别名的创建与管理
大数据·elasticsearch·jenkins
阿里云大数据AI技术1 小时前
用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践
大数据·云原生·数据分析
EasyGBS2 小时前
国标GB28181视频平台EasyCVR顺应智慧农业自动化趋势,打造大棚实时视频监控防线
大数据·网络·人工智能·安全·音视频
TDengine (老段)2 小时前
TDengine 窗口预聚集
大数据·数据库·物联网·时序数据库·tdengine·iotdb
TDengine (老段)2 小时前
TDengine JAVA 语言连接器
java·大数据·数据库·物联网·时序数据库·iot·tdengine
工作中的程序员10 小时前
flink Shuffle的总结
大数据·flink
EasyGBS14 小时前
如何实现两个视频融合EasyCVR平台的数据同步?详细步骤指南
大数据·网络·人工智能·安全·音视频
理智的煎蛋15 小时前
es 原生linux部署集群
大数据·linux·服务器·elasticsearch
谬了个大也15 小时前
es --- 集群数据迁移
大数据·elasticsearch