面试篇Flink

一:为什么学习flink?

相比较spark,flink对于实时这块,使用过流的方式进行实现。

spark是通过批流的方式实现,通过减少批的时间间隔来实现流的功能。

二:什么是flink?

flink是一个针对于实时进行处理的框架。高可用,低延迟。

三:flink怎么使用?

1. flink的俩种架构模式。

  • Standalone模式。
  1. JobManager

    1.将程序转为物理执行图。

    1. 申请资源。

    2. 监控taskmanager运行情况和checkpoint的协调。

  2. ResourceManager

    资源管理器主要负责管理任务管理器(TaskManager)的插槽(slot)。

  3. TaskManager

    执行任务

  4. Dispatcher

  • Flink on yarn模式。

2. TaskSlot与Parallelism。

slot是指taskmanager的并发执行能力。

parallelism是指taskmanager实际使用的并发能力

窗口

  1. 滚动

  2. 滑动

  3. 累加

时间

  1. 事件时间。
  2. 处理时间。
  3. 摄入时间。

水位线

4. 状态。

  1. source端保证。
    在kafka的源头,我们有偏移量,当重跑的时候,会找到上次的offest进行重新加载数据。
  2. 中间进行保证。
    checkpoint
    savepoint
    当jobmanager发送任务的时候,会伴随发送一个barriers(栅栏),每一个操作都会进行一次拍照,最后sink。跑完会将数据存储起来。完成一次保存。最后通知jobmanager。
    存储的方式
    1. 内存
    2. 磁盘
    3. 数据库
  3. sink端进行保证。
    俩阶段提交。
相关推荐
径硕科技JINGdigital11 分钟前
B2B工业制造企业GEO供应商排名审视:以专业交付能力为核心的选型指南
大数据·人工智能·科技
物联网软硬件开发-轨物科技26 分钟前
【轨物洞见】从“人工时代”迈向“视觉语音时代”:轨物科技多模态智能感知与一键顺控专家系统全解析
大数据·人工智能·科技
D愿你归来仍是少年29 分钟前
Apache Spark 第六章:执行计划与 DAG 调度
大数据·spark
redsea_HR39 分钟前
红海eHR解决方案背后的底层能力
大数据·数据库·人工智能
无忧智库1 小时前
破局与重构:大型企业级数字化业务运营平台的深度解构与演进之路(WORD)
大数据·架构
跨境卫士—小依1 小时前
标题与卖点不聚焦如何重构核心卖点逻辑
大数据·人工智能·跨境电商·亚马逊·营销策略
H_老邪1 小时前
Elasticsearch 本地安装配置
大数据·elasticsearch·搜索引擎
新诺韦尔API2 小时前
手机号携号转网接口对接常见问题一览
大数据·api
企业培训大师2 小时前
深度拆解智能防作弊系统:从技术底层到场景落地
大数据