Flink中常见问题总结

jlting1952024-12-12 19:00

1、什么是侧道输出流，有什么用途

测到输出流就是将一个流中的数据按照指定规则进行分流处理；

作用：一方面可以分流，另一方面就是可以通过侧输出机制将严重迟到的数据单独放入一个datastream中供后续处理

2、Flink 中两个流如何合并为一个流

（1）flink中有两种方式可以将两个流合并为流，分别是union和connect；

（2）两者的区别在于union只能合并同种类型的流，而connect可以和并不同类型的流，且两个流之间相互独立，流中的数据也用的是不同的处理逻辑。

3、Flink 中两个流如何 join

（1）两个流jion的方式分为三种：join、coGroup、intervalJoin；

（2）他们的区别在于：

join只能实现内连接的效果；

coGroup比join更加灵活，它可以按照指定的逻辑实现内连接、左连接、右连接，但与join都是基于窗口的；

intervalJoin跟窗口无关，但必须先分组，可以实现点对线的连接，是一个流上某一时刻的数据与另一个流上某一段范围数据的join。

4、Flink 中都有哪些 window，什么是滑动，滚动窗口

（1）有countWindow、timeWindow、会话窗口；

（2）滑动窗口就是每过多长时间就统计比这个时间长的时间段的数据；滚动窗口是指每过多长时间就统计多长时间的数据。

5、flink 中都有哪些时间语义，对于 event_time 中数据迟到的处理（数据乱序）

（1）有eventTime（事件(数据)时间）、IgestionTime（摄入时间）、Processing Time（处理时间）；

（2）当数据出现短期迟到时，可以通过设置水印（watermark）延迟窗口关闭的时间，当使用event Time时就必须使用watermask,当数据出现较严重迟到时，可以设置allowedLateness在水印基础上再次延迟窗口关闭的时间，当数据出现严重迟到时，可以将数据通过侧道输出机制单独放入一个dataStream中供后续处理。