Flink中常见问题总结

1、什么是侧道输出流,有什么用途

测到输出流就是将一个流中的数据按照指定规则进行分流处理;

作用:一方面可以分流,另一方面就是可以通过侧输出机制将严重迟到的数据单独放入一个datastream中供后续处理

(1)flink中有两种方式可以将两个流合并为流,分别是union和connect;

(2)两者的区别在于union只能合并同种类型的流,而connect可以和并不同类型的流,且两个流之间相互独立,流中的数据也用的是不同的处理逻辑。

(1)两个流jion的方式分为三种:join、coGroup、intervalJoin;

(2)他们的区别在于:

join只能实现内连接的效果;

coGroup比join更加灵活,它可以按照指定的逻辑实现内连接、左连接、右连接,但与join都是基于窗口的;

intervalJoin跟窗口无关,但必须先分组,可以实现点对线的连接,是一个流上某一时刻的数据与另一个流上某一段范围数据的join。

(1)有countWindow、timeWindow、会话窗口;

(2)滑动窗口就是每过多长时间就统计比这个时间长的时间段的数据;滚动窗口是指每过多长时间就统计多长时间的数据。

(1)有eventTime(事件(数据)时间)、IgestionTime(摄入时间)、Processing Time(处理时间);

(2)当数据出现短期迟到时,可以通过设置水印(watermark)延迟窗口关闭的时间,当使用event Time时就必须使用watermask,当数据出现较严重迟到时,可以设置allowedLateness在水印基础上再次延迟窗口关闭的时间,当数据出现严重迟到时,可以将数据通过侧道输出机制单独放入一个dataStream中供后续处理。

相关推荐
大数据追光猿2 小时前
Python应用算法之贪心算法理解和实践
大数据·开发语言·人工智能·python·深度学习·算法·贪心算法
人类群星闪耀时3 小时前
物联网与大数据:揭秘万物互联的新纪元
大数据·物联网·struts
warrah9 小时前
flink-cdc同步数据到doris中
flink·doris
坚定信念,勇往无前9 小时前
Spring Boot中整合Flink CDC 数据库变更监听器来实现对MySQL数据库
数据库·spring boot·flink
桃林春风一杯酒9 小时前
HADOOP_HOME and hadoop.home.dir are unset.
大数据·hadoop·分布式
桃木山人10 小时前
BigData File Viewer报错
大数据·java-ee·github·bigdata
B站计算机毕业设计超人10 小时前
计算机毕业设计Python+DeepSeek-R1高考推荐系统 高考分数线预测 大数据毕设(源码+LW文档+PPT+讲解)
大数据·python·机器学习·网络爬虫·课程设计·数据可视化·推荐算法
数造科技10 小时前
紧随“可信数据空间”政策风潮,数造科技正式加入开放数据空间联盟
大数据·人工智能·科技·安全·敏捷开发
undo_try11 小时前
大数据组件(四)快速入门实时数据湖存储系统Apache Paimon(2)
flink·bigdata·paimon
逸Y 仙X13 小时前
Git常见命令--助力开发
java·大数据·git·java-ee·github·idea