面试篇Flink

一:为什么学习flink?

相比较spark,flink对于实时这块,使用过流的方式进行实现。

spark是通过批流的方式实现,通过减少批的时间间隔来实现流的功能。

二:什么是flink?

flink是一个针对于实时进行处理的框架。高可用,低延迟。

三:flink怎么使用?

1. flink的俩种架构模式。

  • Standalone模式。
  1. JobManager

    1.将程序转为物理执行图。

    1. 申请资源。

    2. 监控taskmanager运行情况和checkpoint的协调。

  2. ResourceManager

    资源管理器主要负责管理任务管理器(TaskManager)的插槽(slot)。

  3. TaskManager

    执行任务

  4. Dispatcher

  • Flink on yarn模式。

2. TaskSlot与Parallelism。

slot是指taskmanager的并发执行能力。

parallelism是指taskmanager实际使用的并发能力

窗口

  1. 滚动

  2. 滑动

  3. 累加

时间

  1. 事件时间。
  2. 处理时间。
  3. 摄入时间。

水位线

4. 状态。

  1. source端保证。
    在kafka的源头,我们有偏移量,当重跑的时候,会找到上次的offest进行重新加载数据。
  2. 中间进行保证。
    checkpoint
    savepoint
    当jobmanager发送任务的时候,会伴随发送一个barriers(栅栏),每一个操作都会进行一次拍照,最后sink。跑完会将数据存储起来。完成一次保存。最后通知jobmanager。
    存储的方式
    1. 内存
    2. 磁盘
    3. 数据库
  3. sink端进行保证。
    俩阶段提交。
相关推荐
IT研究所7 小时前
IT 资产管理 (ITAM) 与 ITSM 协同实践:构建从资产到服务的闭环管理体系
大数据·运维·人工智能·科技·安全·低代码·自动化
辣椒种子7 小时前
Elasticsearch 基础入门--开发elasticsearch搜索数据篇
大数据·elasticsearch·jenkins
geneculture10 小时前
人机互助新时代超级个体(OPC)的学术述评——基于人文学科与数理学科的双重视域
大数据·人工智能·哲学与科学统一性·信息融智学·融智时代(杂志)
zchxzl10 小时前
亲测2026京津冀可靠广告展会
大数据·人工智能·python
J2虾虾11 小时前
在Kylin Server上安装并配置MariaDB
大数据·mariadb·kylin
Elastic 中国社区官方博客14 小时前
Elasticsearch:创建 geocoding workflow,并在 agent 中使用它进行位置搜索
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型
TechubNews15 小时前
燦谷(Cango Inc)入局AI 資本重組彰顯決心
大数据·网络·人工智能·区块链
keke.shengfengpolang15 小时前
2026大专大数据技术专业男生就业岗位全攻略:从入门到进阶
大数据
heimeiyingwang15 小时前
企业内部知识管理:AI 驱动的文档检索与知识问答
大数据
yohalaser17 小时前
硬核智测赋能 武汉曜华激光加速钙钛矿产线产业化进程
大数据·运维·人工智能