Flink的一些面试题整理

1、flink的四大基石

state、Time、window、checkpoint

2、flink中的滚动窗口和滑动窗口的区别

滚动窗口:窗口长度=滑动距离,又分为滚动时间窗口、滚动计数窗口。

滑动窗口:窗口长度!=滑动距离,其中,如果滑动距离>窗口长度,会漏掉数据,反之则会重复处理数据比如要求是每隔1分钟,统计前面5分钟的数据(滑动距离1分钟,窗口长度5分钟,重复处理4分钟的数据)

3、flink中时间语义有哪些?如何处理迟到的数据

时间语义:

eventTime:事件时间,是时间真正发生时的时间

ingestionTime:摄入时间,是时间达到流处理系统的时间

ProcessingTime:处理时间,是时间被处理的时间

迟到的数据可以使用:

allowdelateness:水印+allowdelateness是短期延迟+等待长期延迟效果,达到水印条件后,会触发窗口计算,但是不关闭窗口。事件时间延迟达到水印+allowdelateness之后会关闭窗口

侧输出-SideOutput:通过watermark在短时间内允许了乱序到来的数据,可以将错过水印有错过allowdelateness允许的时间的数据,单独存放在一个DataStream中,然后开发人员可以自定义逻辑对这些超级迟到的数据进行处理。

4、flinkCore中都能读取哪些数据

基本数据类型

复制代码
// 从集合读取基本类型
Integer
Double
String
Boolean
Long序列

复合数据类型

Tuple(元组)、

POJO(普通Java对象)、

Case Class(Scala专用,Java中类似POJO)

数据库数据

Kafka消息队列数据

日志数据

订单数据

5、flink中常见的算子以及作用

1)Source:用来处理数据来源

fromSource、readFile、collection、Socket

其中socket是非并行的Source,该方法需要传入两个参数,一个是指定的ip或主机名,另一个是端口号
2)Transformaton-转换算子:

FlatMap:读取文件内容,

Filter:读取文件中的日志数据,并过滤出对应的ip,

KeyBy:分组,

Reduce:对一个dataset或group进行聚合计算,最终聚合成一个元素

union:可以合并多个同类型的流,可以去并集但是不会去重,且union合并的Datastream的类型必须是一致的。

collect:可以连接两个不同类型的流,两个流之间的数据类型可以不同,对两个流的数据可以分别应对不同的处理逻辑。

Side Outputs侧道输出(侧输出流):可以分流,例如将数据按照奇偶数进行分流,并获取数据。
3)Sink:调用Sink后才会产生最终的计算结果

print:打印,可以传入一个字符,指定一个Sink的标识名称,如果有多个打印的Sink,用来区分到底是哪一个Sink的输出。

Connectors:向JDBC数据库中写入数据,包括kafkaconnector,jdbcconnector。

6、窗口函数分为增量函数和全量函数,请编写对应的函数名

增量函数:reduce(reduceFunction)、aggregate(aggregateFunction)、sum()、min()、max()

全量函数:apply(windowFunction)、process(processWindowFunction)

相关推荐
lili-felicity18 小时前
CANN异步推理实战:从Stream管理到流水线优化
大数据·人工智能
2501_9336707918 小时前
2026 高职大数据专业考什么证书对就业有帮助?
大数据
xiaobaibai15318 小时前
营销自动化终极形态:AdAgent 自主闭环工作流全解析
大数据·人工智能·自动化
星辰_mya18 小时前
Elasticsearch更新了分词器之后
大数据·elasticsearch·搜索引擎
xiaobaibai15318 小时前
决策引擎深度拆解:AdAgent 用 CoT+RL 实现营销自主化决策
大数据·人工智能
悟纤19 小时前
学习与专注音乐流派 (Study & Focus Music):AI 音乐创作终极指南 | Suno高级篇 | 第33篇
大数据·人工智能·深度学习·学习·suno·suno api
ESBK202519 小时前
第四届移动互联网、云计算与信息安全国际会议(MICCIS 2026)二轮征稿启动,诚邀全球学者共赴学术盛宴
大数据·网络·物联网·网络安全·云计算·密码学·信息与通信
Elastic 中国社区官方博客19 小时前
Elasticsearch:Workflows 介绍 - 9.3
大数据·数据库·人工智能·elasticsearch·ai·全文检索
B站_计算机毕业设计之家19 小时前
豆瓣电影推荐系统 | Python Django Echarts构建个性化影视推荐平台 大数据 毕业设计源码 (建议收藏)✅
大数据·python·机器学习·django·毕业设计·echarts·推荐算法
莽撞的大地瓜19 小时前
洞察,始于一目了然——让舆情数据自己“说话”
大数据·网络·数据分析