01、flink的原理和安装部署

flink中主要有两个进程,分别是JobMManager和TaskManager,当然了根据flink的部署和运行环境不同,会有一些不同,但是主要的功能是类似的,下面我会讲下聊下,公司用的多的部署方式,基于yarn集群的部署

01. JobManager

  • job任务的拆解
  • 资源的调度
  • checkpoints的生成

02. TaskManager

  • 根据JobManager给的具体task任务启动线程去执行

03. Flink中相关概念的含义

flink中任务跑起来之后会有这些名字需要弄清楚,并行度,分区,算子链,taskslot,task,subTask

  • Task: 相当于Spark中的Stage,一个job中根据是否发生分区的变化(主要是指产生shuffle的操作:上游分区的数据会分成若干份,被拉去到下游的不同分区)把job切分成不同的Task

  • 算子链: 算子链由若干个能划分成一个Task的算子组成

  • TaskSlot: TaskSlot代表可以运行Task的一组资源槽,分布在各个TaskManager进程中

  • 并行度,分区,SubTask: 并行度,分区和SubTask在flink中都表示相近的意思,都代表当下task的并发程度,也可以看作是一个运行线程

    其中需要的几点如下,其中一点是,Flink任务TaskSlot的数量要大于等于这个job中各算子并行度最大的那个算子的并行度,否则任务跑不起来,还有一点是各个Task需要运行在一个TaskSlot比如一个job有3个Task,那这三个Task就应该被分配到同一个slot中运行,这样做的目的是为了减少各个Task之间数据交换的成本,如下图所示

flink on yanr是大多数公司选择的一种运行方式,它的优势主要是借助yarn的资源管理能力,通过yarn能更灵活把控flink job进行资源利用,同时也大大的减轻了公司大数据组件的维护压力,如下是on yarn的运行流程

  • 任务提交之后,yanr会把我们提交的jar包已经运行的所需的jar包都放到hdfs的中
  • 同时client会和ResourceManager通信,RM会在对应的NodeManager中启动一个ApplicationMaster进程来运行我们提交的主jar包上的main方法,构建任务的运行环境
  • 上步骤中的APPMaster其实就是JobManager的功能,它会吧job的task分割好,然后再回到RM中申请对应的资源运行Task
  • RM接收到请求之后然后根据配置会启动对应的TaskManager,在每个TaskManager中启动相应的TaskSlot
  • 对应的资源都准备好之后,TaskManager会去下载对应Task运行时需要的jar包来构建运行环境
  • 环境构建之后,每个slot就运行分配给自己的任务,在这期间会和JobManager进行通信,共同完成job的任务
相关推荐
AI周红伟27 分钟前
agent-skills 一键落地实操指南-运行指南-周红伟
大数据·人工智能·elasticsearch·搜索引擎
代码女神经42 分钟前
用AI思维,重构供应链物流产品闭环
大数据·人工智能·重构
计算机安禾1 小时前
【算法分析与设计】第13篇:最小生成树:Prim算法与Kruskal算法的比较研究
大数据·人工智能·算法
易观Analysys1 小时前
企业拥抱Agent行动指南——《重构与崛起——OpenClaw时代的中国Agent产业生态报告》解读四
大数据·人工智能
newsxun2 小时前
AI进入真实照护场景:添康加速构建智慧康养新能力
大数据·人工智能·物联网
m0_46644103詹湛2 小时前
定价的艺术
大数据·人工智能·ai·创业创新
2601_959477912 小时前
Vatee:面向成熟用户的综合服务评估
大数据·人工智能·安全·ux
小真zzz3 小时前
9.8分登顶:搜极星如何以绝对中立与专业,定义AI时代品牌洞察新范式
大数据·人工智能·搜索引擎·ai
郑寿昌3 小时前
2026 全球 AI 工厂市场格局与发展趋势
大数据·人工智能·microsoft
祁白_3 小时前
[0xV01D]_Release Echo_writeUp
大数据·安全·ctf·writeup