面试篇Flink

一:为什么学习flink?

相比较spark,flink对于实时这块,使用过流的方式进行实现。

spark是通过批流的方式实现,通过减少批的时间间隔来实现流的功能。

二:什么是flink?

flink是一个针对于实时进行处理的框架。高可用,低延迟。

三:flink怎么使用?

1. flink的俩种架构模式。

  • Standalone模式。
  1. JobManager

    1.将程序转为物理执行图。

    1. 申请资源。

    2. 监控taskmanager运行情况和checkpoint的协调。

  2. ResourceManager

    资源管理器主要负责管理任务管理器(TaskManager)的插槽(slot)。

  3. TaskManager

    执行任务

  4. Dispatcher

  • Flink on yarn模式。

2. TaskSlot与Parallelism。

slot是指taskmanager的并发执行能力。

parallelism是指taskmanager实际使用的并发能力

窗口

  1. 滚动

  2. 滑动

  3. 累加

时间

  1. 事件时间。
  2. 处理时间。
  3. 摄入时间。

水位线

4. 状态。

  1. source端保证。
    在kafka的源头,我们有偏移量,当重跑的时候,会找到上次的offest进行重新加载数据。
  2. 中间进行保证。
    checkpoint
    savepoint
    当jobmanager发送任务的时候,会伴随发送一个barriers(栅栏),每一个操作都会进行一次拍照,最后sink。跑完会将数据存储起来。完成一次保存。最后通知jobmanager。
    存储的方式
    1. 内存
    2. 磁盘
    3. 数据库
  3. sink端进行保证。
    俩阶段提交。
相关推荐
清水白石0083 分钟前
《解锁 Python 潜能:从内存模型看可变与不可变对象,及其实战最佳实践》
大数据·开发语言·python
爱吃糖的z16 分钟前
Elasticsearch Percolate Query使用优化案例-从2000到500ms
大数据·elasticsearch·搜索引擎
Hello.Reader17 分钟前
Apache Flink 2.2.0 源码编译从环境准备到 PyFlink 打包一次讲清
大数据·flink·apache
黑客说23 分钟前
独领无限流赛道:白日梦科技,重新定义AI时代的互动娱乐标杆
大数据·人工智能
综合热讯32 分钟前
同健梦社区计划正式发布!
大数据
武子康37 分钟前
大数据-247 离线数仓 - 电商分析 Hive 拉链表实战:订单历史状态增量刷新、闭链逻辑与错误排查
大数据·后端·apache hive
APO Research40 分钟前
Virtual Commissioning产业趋势:数字孪生驱动的虚拟调试如何重塑工业自动化工程体系
大数据·自动化·智能制造·数字孪生·工业自动化·工程数字化
悢七1 小时前
flink-yarn提交任务,application无限次appattempt
flink·yarn
言午说数据1 小时前
数仓入门篇-数仓分层
大数据·面试
IPHWT 零软网络1 小时前
让前厅更高效,让服务更暖心——HWT2.0酒店话务台,重构宾客体验新范式
大数据·重构