1、flink的四大基石
state、Time、window、checkpoint
2、flink中的滚动窗口和滑动窗口的区别
滚动窗口:窗口长度=滑动距离,又分为滚动时间窗口、滚动计数窗口。
滑动窗口:窗口长度!=滑动距离,其中,如果滑动距离>窗口长度,会漏掉数据,反之则会重复处理数据比如要求是每隔1分钟,统计前面5分钟的数据(滑动距离1分钟,窗口长度5分钟,重复处理4分钟的数据)
3、flink中时间语义有哪些?如何处理迟到的数据
时间语义:
eventTime:事件时间,是时间真正发生时的时间
ingestionTime:摄入时间,是时间达到流处理系统的时间
ProcessingTime:处理时间,是时间被处理的时间
迟到的数据可以使用:
allowdelateness:水印+allowdelateness是短期延迟+等待长期延迟效果,达到水印条件后,会触发窗口计算,但是不关闭窗口。事件时间延迟达到水印+allowdelateness之后会关闭窗口
侧输出-SideOutput:通过watermark在短时间内允许了乱序到来的数据,可以将错过水印有错过allowdelateness允许的时间的数据,单独存放在一个DataStream中,然后开发人员可以自定义逻辑对这些超级迟到的数据进行处理。
4、flinkCore中都能读取哪些数据
基本数据类型
// 从集合读取基本类型 Integer Double String Boolean Long序列复合数据类型
Tuple(元组)、
POJO(普通Java对象)、
Case Class(Scala专用,Java中类似POJO)
数据库数据
Kafka消息队列数据
日志数据
订单数据
5、flink中常见的算子以及作用
1)Source:用来处理数据来源
fromSource、readFile、collection、Socket
其中socket是非并行的Source,该方法需要传入两个参数,一个是指定的ip或主机名,另一个是端口号
2)Transformaton-转换算子:FlatMap:读取文件内容,
Filter:读取文件中的日志数据,并过滤出对应的ip,
KeyBy:分组,
Reduce:对一个dataset或group进行聚合计算,最终聚合成一个元素
union:可以合并多个同类型的流,可以去并集但是不会去重,且union合并的Datastream的类型必须是一致的。
collect:可以连接两个不同类型的流,两个流之间的数据类型可以不同,对两个流的数据可以分别应对不同的处理逻辑。
Side Outputs侧道输出(侧输出流):可以分流,例如将数据按照奇偶数进行分流,并获取数据。
3)Sink:调用Sink后才会产生最终的计算结果print:打印,可以传入一个字符,指定一个Sink的标识名称,如果有多个打印的Sink,用来区分到底是哪一个Sink的输出。
Connectors:向JDBC数据库中写入数据,包括kafkaconnector,jdbcconnector。
6、窗口函数分为增量函数和全量函数,请编写对应的函数名
增量函数:reduce(reduceFunction)、aggregate(aggregateFunction)、sum()、min()、max()
全量函数:apply(windowFunction)、process(processWindowFunction)