Flink的一些面试题整理

1、flink的四大基石

state、Time、window、checkpoint

2、flink中的滚动窗口和滑动窗口的区别

滚动窗口:窗口长度=滑动距离,又分为滚动时间窗口、滚动计数窗口。

滑动窗口:窗口长度!=滑动距离,其中,如果滑动距离>窗口长度,会漏掉数据,反之则会重复处理数据比如要求是每隔1分钟,统计前面5分钟的数据(滑动距离1分钟,窗口长度5分钟,重复处理4分钟的数据)

3、flink中时间语义有哪些?如何处理迟到的数据

时间语义:

eventTime:事件时间,是时间真正发生时的时间

ingestionTime:摄入时间,是时间达到流处理系统的时间

ProcessingTime:处理时间,是时间被处理的时间

迟到的数据可以使用:

allowdelateness:水印+allowdelateness是短期延迟+等待长期延迟效果,达到水印条件后,会触发窗口计算,但是不关闭窗口。事件时间延迟达到水印+allowdelateness之后会关闭窗口

侧输出-SideOutput:通过watermark在短时间内允许了乱序到来的数据,可以将错过水印有错过allowdelateness允许的时间的数据,单独存放在一个DataStream中,然后开发人员可以自定义逻辑对这些超级迟到的数据进行处理。

4、flinkCore中都能读取哪些数据

基本数据类型

复制代码
// 从集合读取基本类型
Integer
Double
String
Boolean
Long序列

复合数据类型

Tuple(元组)、

POJO(普通Java对象)、

Case Class(Scala专用,Java中类似POJO)

数据库数据

Kafka消息队列数据

日志数据

订单数据

5、flink中常见的算子以及作用

1)Source:用来处理数据来源

fromSource、readFile、collection、Socket

其中socket是非并行的Source,该方法需要传入两个参数,一个是指定的ip或主机名,另一个是端口号
2)Transformaton-转换算子:

FlatMap:读取文件内容,

Filter:读取文件中的日志数据,并过滤出对应的ip,

KeyBy:分组,

Reduce:对一个dataset或group进行聚合计算,最终聚合成一个元素

union:可以合并多个同类型的流,可以去并集但是不会去重,且union合并的Datastream的类型必须是一致的。

collect:可以连接两个不同类型的流,两个流之间的数据类型可以不同,对两个流的数据可以分别应对不同的处理逻辑。

Side Outputs侧道输出(侧输出流):可以分流,例如将数据按照奇偶数进行分流,并获取数据。
3)Sink:调用Sink后才会产生最终的计算结果

print:打印,可以传入一个字符,指定一个Sink的标识名称,如果有多个打印的Sink,用来区分到底是哪一个Sink的输出。

Connectors:向JDBC数据库中写入数据,包括kafkaconnector,jdbcconnector。

6、窗口函数分为增量函数和全量函数,请编写对应的函数名

增量函数:reduce(reduceFunction)、aggregate(aggregateFunction)、sum()、min()、max()

全量函数:apply(windowFunction)、process(processWindowFunction)

相关推荐
那就学有所成吧(˵¯͒¯͒˵)1 天前
大数据项目(一):Hadoop 云网盘管理系统开发实践
大数据·hadoop·分布式
KKKlucifer1 天前
数据资产地图构建:文档安全可视化与主动防御
大数据·安全
2501_943695331 天前
高职工业大数据应用专业,怎么找智能制造企业的数据岗?
大数据·信息可视化·制造
得赢科技1 天前
智能菜谱研发公司推荐 适配中小型餐饮
大数据·运维·人工智能
Hello.Reader1 天前
Flink 内存与资源调优从 Process Memory 到 Fine-Grained Resource Management
大数据·flink
有代理ip1 天前
成功请求的密码:HTTP 2 开头响应码深度解析
java·大数据·python·算法·php
jl48638211 天前
打造医疗设备的“可靠视窗”:医用控温仪专用屏从抗菌设计到EMC兼容的全链路解析
大数据·运维·人工智能·物联网·人机交互
刺客xs1 天前
git 入门常用命令
大数据·git·elasticsearch
risc1234561 天前
【Elasticsearch】LeafDocLookup 详述
大数据·elasticsearch·mybatis
qq_12498707531 天前
基于协同过滤算法的运动场馆服务平台设计与实现(源码+论文+部署+安装)
java·大数据·数据库·人工智能·spring boot·毕业设计·计算机毕业设计