面试篇Flink

一:为什么学习flink?

相比较spark,flink对于实时这块,使用过流的方式进行实现。

spark是通过批流的方式实现,通过减少批的时间间隔来实现流的功能。

二:什么是flink?

flink是一个针对于实时进行处理的框架。高可用,低延迟。

三:flink怎么使用?

1. flink的俩种架构模式。

  • Standalone模式。
  1. JobManager

    1.将程序转为物理执行图。

    1. 申请资源。

    2. 监控taskmanager运行情况和checkpoint的协调。

  2. ResourceManager

    资源管理器主要负责管理任务管理器(TaskManager)的插槽(slot)。

  3. TaskManager

    执行任务

  4. Dispatcher

  • Flink on yarn模式。

2. TaskSlot与Parallelism。

slot是指taskmanager的并发执行能力。

parallelism是指taskmanager实际使用的并发能力

窗口

  1. 滚动

  2. 滑动

  3. 累加

时间

  1. 事件时间。
  2. 处理时间。
  3. 摄入时间。

水位线

4. 状态。

  1. source端保证。
    在kafka的源头,我们有偏移量,当重跑的时候,会找到上次的offest进行重新加载数据。
  2. 中间进行保证。
    checkpoint
    savepoint
    当jobmanager发送任务的时候,会伴随发送一个barriers(栅栏),每一个操作都会进行一次拍照,最后sink。跑完会将数据存储起来。完成一次保存。最后通知jobmanager。
    存储的方式
    1. 内存
    2. 磁盘
    3. 数据库
  3. sink端进行保证。
    俩阶段提交。
相关推荐
云器科技11 小时前
小红书×云器科技|增量计算+实时湖仓构建小红书实验数仓生产新范式
大数据·数据库架构·小红书·实时数据·数据湖仓
武子康11 小时前
大数据-186 Logstash JDBC vs Syslog Input:原理、场景对比与可复用配置(基于 Logstash 7.3.0)
大数据·后端·logstash
梦里不知身是客1111 小时前
spark如何调节jvm的连接等待时长
大数据·分布式·spark
梦里不知身是客1111 小时前
spark的血脉机制
大数据·分布式·spark
小技工丨12 小时前
【02】Apache Flink 物化表与流批一体处理
大数据·flink·apache
Jerry Lau12 小时前
Flink CDC 入门实战:从原理到踩坑全记录 (datastream/SQL 双版本)
大数据·sql·flink
TG:@yunlaoda360 云老大12 小时前
腾讯云国际站代理商的TAPD如何帮助企业进行成本控制?
大数据·云计算·腾讯云
Hello.Reader12 小时前
Flink SQL ANALYZE TABLE手动采集表统计信息,让优化器“更懂数据”
大数据·sql·flink
ggabb12 小时前
新国标电动车爬坡困境:当限速25km/h遭遇安全危机,无责伤亡谁来买单?
大数据·人工智能·安全