面试篇Flink

一:为什么学习flink?

相比较spark,flink对于实时这块,使用过流的方式进行实现。

spark是通过批流的方式实现,通过减少批的时间间隔来实现流的功能。

二:什么是flink?

flink是一个针对于实时进行处理的框架。高可用,低延迟。

三:flink怎么使用?

1. flink的俩种架构模式。

  • Standalone模式。
  1. JobManager

    1.将程序转为物理执行图。

    1. 申请资源。

    2. 监控taskmanager运行情况和checkpoint的协调。

  2. ResourceManager

    资源管理器主要负责管理任务管理器(TaskManager)的插槽(slot)。

  3. TaskManager

    执行任务

  4. Dispatcher

  • Flink on yarn模式。

2. TaskSlot与Parallelism。

slot是指taskmanager的并发执行能力。

parallelism是指taskmanager实际使用的并发能力

窗口

  1. 滚动

  2. 滑动

  3. 累加

时间

  1. 事件时间。
  2. 处理时间。
  3. 摄入时间。

水位线

4. 状态。

  1. source端保证。
    在kafka的源头,我们有偏移量,当重跑的时候,会找到上次的offest进行重新加载数据。
  2. 中间进行保证。
    checkpoint
    savepoint
    当jobmanager发送任务的时候,会伴随发送一个barriers(栅栏),每一个操作都会进行一次拍照,最后sink。跑完会将数据存储起来。完成一次保存。最后通知jobmanager。
    存储的方式
    1. 内存
    2. 磁盘
    3. 数据库
  3. sink端进行保证。
    俩阶段提交。
相关推荐
渣渣盟3 分钟前
Flink流处理:实时计算URL访问量TopN(基于时间窗口)
大数据·flink·scala
摇滚侠11 分钟前
创建 git 忽略文件 忽略 .obsidian 这个目录
大数据·git·elasticsearch
aq553560035 分钟前
Laravel7.x十大革新特性详解
大数据·elasticsearch·mfc
我星期八休息1 小时前
Linux 进程核心原理全解:从冯诺依曼体系到进程控制全链路深度剖析
大数据·linux·服务器·开发语言·数据结构·c++·散列表
maxchen.cn1 小时前
实时交互数字人解决方案深度剖析:以臻灵平台为例的商业价值与竞争力评估
大数据·人工智能
黎阳之光1 小时前
视频孪生赋能智慧能源园区:黎阳之光打造全域数智化新标杆
大数据·人工智能·算法·安全·数字孪生
一品威客爱开发1 小时前
APP 二期开发运营联动技巧 灵活用工平台开发成本测算
大数据
zs宝来了1 小时前
Apache Iceberg 数据湖:表格式与时间旅行
大数据·数据工程
无忧智库1 小时前
新型电力系统变革前沿:虚拟电厂与储能调峰的数字化深度解析(WORD)
大数据