01、flink的原理和安装部署

flink中主要有两个进程,分别是JobMManager和TaskManager,当然了根据flink的部署和运行环境不同,会有一些不同,但是主要的功能是类似的,下面我会讲下聊下,公司用的多的部署方式,基于yarn集群的部署

01. JobManager

  • job任务的拆解
  • 资源的调度
  • checkpoints的生成

02. TaskManager

  • 根据JobManager给的具体task任务启动线程去执行

03. Flink中相关概念的含义

flink中任务跑起来之后会有这些名字需要弄清楚,并行度,分区,算子链,taskslot,task,subTask

  • Task: 相当于Spark中的Stage,一个job中根据是否发生分区的变化(主要是指产生shuffle的操作:上游分区的数据会分成若干份,被拉去到下游的不同分区)把job切分成不同的Task

  • 算子链: 算子链由若干个能划分成一个Task的算子组成

  • TaskSlot: TaskSlot代表可以运行Task的一组资源槽,分布在各个TaskManager进程中

  • 并行度,分区,SubTask: 并行度,分区和SubTask在flink中都表示相近的意思,都代表当下task的并发程度,也可以看作是一个运行线程

    其中需要的几点如下,其中一点是,Flink任务TaskSlot的数量要大于等于这个job中各算子并行度最大的那个算子的并行度,否则任务跑不起来,还有一点是各个Task需要运行在一个TaskSlot比如一个job有3个Task,那这三个Task就应该被分配到同一个slot中运行,这样做的目的是为了减少各个Task之间数据交换的成本,如下图所示

flink on yanr是大多数公司选择的一种运行方式,它的优势主要是借助yarn的资源管理能力,通过yarn能更灵活把控flink job进行资源利用,同时也大大的减轻了公司大数据组件的维护压力,如下是on yarn的运行流程

  • 任务提交之后,yanr会把我们提交的jar包已经运行的所需的jar包都放到hdfs的中
  • 同时client会和ResourceManager通信,RM会在对应的NodeManager中启动一个ApplicationMaster进程来运行我们提交的主jar包上的main方法,构建任务的运行环境
  • 上步骤中的APPMaster其实就是JobManager的功能,它会吧job的task分割好,然后再回到RM中申请对应的资源运行Task
  • RM接收到请求之后然后根据配置会启动对应的TaskManager,在每个TaskManager中启动相应的TaskSlot
  • 对应的资源都准备好之后,TaskManager会去下载对应Task运行时需要的jar包来构建运行环境
  • 环境构建之后,每个slot就运行分配给自己的任务,在这期间会和JobManager进行通信,共同完成job的任务
相关推荐
黎阳之光1 小时前
视听融合新范式!黎阳之光打破视觉边界,声影协同赋能全域智慧管控
大数据·人工智能·物联网·算法·数字孪生
iiiiyu1 小时前
集合进阶(Map集合)
java·大数据·开发语言·数据结构·编程语言
塔能物联运维1 小时前
存量机房降本增效:两相液冷技术解锁全生命周期成本优化密码
大数据·人工智能
黎阳之光2 小时前
黎阳之光:视频孪生智慧厂网一体化解决方案|污水处理全场景智能化升级
大数据·人工智能·物联网·安全·数字孪生
DS小龙哥2 小时前
基于ESP32+非接触式微波雷达设计的睡眠监控系统
大数据·人工智能
一切皆是因缘际会3 小时前
依托记忆结构心智体系,AI 自主意识进化路径
大数据·人工智能·安全·搜索引擎·ai
liana87443 小时前
内部聊天软件选型:安全高效是根本
大数据·安全
不开大的凯20774 小时前
海外AI圈的“五月风暴”:一场没有硝烟的全面战争
大数据·人工智能
名不经传的养虾人4 小时前
从0到1:企业级AI项目迭代日记 Vol.28|企业AI的交付不是给工具,而是给搭好的能力
大数据·人工智能·ai编程·ai工作流·企业ai·多agent协作
DianSan_ERP4 小时前
自研电商架构:一套API安全对接60+平台
大数据·运维·数据库·人工智能·安全·架构