Flink的一些面试题整理

1、flink的四大基石

state、Time、window、checkpoint

2、flink中的滚动窗口和滑动窗口的区别

滚动窗口:窗口长度=滑动距离,又分为滚动时间窗口、滚动计数窗口。

滑动窗口:窗口长度!=滑动距离,其中,如果滑动距离>窗口长度,会漏掉数据,反之则会重复处理数据比如要求是每隔1分钟,统计前面5分钟的数据(滑动距离1分钟,窗口长度5分钟,重复处理4分钟的数据)

3、flink中时间语义有哪些?如何处理迟到的数据

时间语义:

eventTime:事件时间,是时间真正发生时的时间

ingestionTime:摄入时间,是时间达到流处理系统的时间

ProcessingTime:处理时间,是时间被处理的时间

迟到的数据可以使用:

allowdelateness:水印+allowdelateness是短期延迟+等待长期延迟效果,达到水印条件后,会触发窗口计算,但是不关闭窗口。事件时间延迟达到水印+allowdelateness之后会关闭窗口

侧输出-SideOutput:通过watermark在短时间内允许了乱序到来的数据,可以将错过水印有错过allowdelateness允许的时间的数据,单独存放在一个DataStream中,然后开发人员可以自定义逻辑对这些超级迟到的数据进行处理。

4、flinkCore中都能读取哪些数据

基本数据类型

复制代码
// 从集合读取基本类型
Integer
Double
String
Boolean
Long序列

复合数据类型

Tuple(元组)、

POJO(普通Java对象)、

Case Class(Scala专用,Java中类似POJO)

数据库数据

Kafka消息队列数据

日志数据

订单数据

5、flink中常见的算子以及作用

1)Source:用来处理数据来源

fromSource、readFile、collection、Socket

其中socket是非并行的Source,该方法需要传入两个参数,一个是指定的ip或主机名,另一个是端口号
2)Transformaton-转换算子:

FlatMap:读取文件内容,

Filter:读取文件中的日志数据,并过滤出对应的ip,

KeyBy:分组,

Reduce:对一个dataset或group进行聚合计算,最终聚合成一个元素

union:可以合并多个同类型的流,可以去并集但是不会去重,且union合并的Datastream的类型必须是一致的。

collect:可以连接两个不同类型的流,两个流之间的数据类型可以不同,对两个流的数据可以分别应对不同的处理逻辑。

Side Outputs侧道输出(侧输出流):可以分流,例如将数据按照奇偶数进行分流,并获取数据。
3)Sink:调用Sink后才会产生最终的计算结果

print:打印,可以传入一个字符,指定一个Sink的标识名称,如果有多个打印的Sink,用来区分到底是哪一个Sink的输出。

Connectors:向JDBC数据库中写入数据,包括kafkaconnector,jdbcconnector。

6、窗口函数分为增量函数和全量函数,请编写对应的函数名

增量函数:reduce(reduceFunction)、aggregate(aggregateFunction)、sum()、min()、max()

全量函数:apply(windowFunction)、process(processWindowFunction)

相关推荐
智慧景区与市集主理人28 分钟前
巨有科技会员积分系统|深耕私域存量,破解景区复购增收难题
大数据·科技
Litluecat2 小时前
2026年6月1日科技热点新闻
大数据·人工智能·科技·推荐·热点·新闻·每日
志栋智能3 小时前
AI驱动无代码:降低巡检超自动化的门槛
大数据·运维·网络·人工智能·自动化
代码匠心3 小时前
从零开始学Flink:Flink CDC 入门
大数据·数据仓库·flink
Irene19913 小时前
基于现有的大数据开发实验环境,深入理解数据完整生命周期,工具配合使用,全流程练习
大数据·工具·开发环境·项目练习
Hefei GlobefishAI3 小时前
无人零售智能柜适合哪些场景?
大数据·零售
yjcode7893 小时前
探索游戏充值新纪元:友价源码技术革新之旅
大数据·人工智能·游戏·游戏交易
snow@li4 小时前
AI:理解 大数据、算法、算力、电力、生成式AI、token 之间的关系
大数据·人工智能·算法
oort1234 小时前
VLStream:全开源决策式AI视频平台,赋能企业构建自主可控、降本增效的智能视觉应用介绍
大数据·开发语言·人工智能·开源·音视频·数据库架构
TDengine (老段)4 小时前
TDengine 压缩编码机制 — 双层压缩架构与类型特化算法
大数据·数据库·物联网·算法·时序数据库·tdengine·涛思数据