【Flink运行时架构】组件构成

在Flink的运行架构中,有两大比较重要的组件:作业管理器(JobManager)和任务管理器(TaskManager)。

Flink的作业提交与任务处理时的系统如下图所示。

其中,客户端并不是处理系统的一部分,只是负责作业提交,在作业提交之后,可选择与JobManager断开连接。接下来,重点介绍一下JobManager和TaskManager在整个过程中所扮演的角色。

JobManager

JobManager是Flink集群中一个任务管理和调度的核心,是控制应用执行的主进程,每一个应用都应该被唯一的JM控制执行。在高可用的场景下,可能会出现多个JM,但是也只有一个正在运行的Leader节点,其余都是备用。JM又包含三个组件:JobMaster、ResourceManager、Dispatcher。

JobMaster

我们把对数据进行处理的操作统称为任务(task),多个任务按照一定的先后顺序连接起来,就构成了作业(job)。而JobMaster是负责处理单独的作业,因此JobMaster和具体的job是一一对应的。

也就是说,多个job是可以运行在一个Flink集群上的,而每一个job则都有一个自己的JobMaster。

JobMaster在接收到客户端提交的应用后,会把作业图转换成一个物理层面的数据流图,也就是执行图,它包含了所有可以并发执行的任务。JobMaster会向资源管理器发出请求,申请执行任务必要的资源,一旦获取了足够资源,就会将执行图分发到真正运行他们的TaskManager上。

ResourceManager

ResourceManager主要负责资源的分配和管理,在Flink集群中只有一个。这里的资源是指TaskManager的任务槽(slot),它包含了机器用来执行计算的一组CPU和内存。每个任务都需要被分配到一个任务槽中执行。

这里的ResourceManager其实是Flink内置的,注意和其他资源管理平台区分开,比如K8S、YARN等。

TaskManager中的任务槽都会向ResourceManager注册的,当ResourceManager没有足够的任务槽时,它可以向资源管理平台发起会话,请求提供启动TaskManager进程的容器。

Dispatcher

Dispatcher主要负责提供一个REST接口,用来与集群进行交互和管理,负责为每一个新提交的作业启动一个新的JobMaser组件,以及启动一个WebUI用于展示和监控作业执行信息。

TaskManager

每个TaskManager都包含了一定数量的任务槽,任务槽是资源调度的最小单位,其数量限制了TaskManager能够并发处理的任务数量。

TaskManager启动之后,会向ResourceManager注册它的任务槽,收到指令后,TaskManager就会将一个或者多个任务槽提供给JobMaster用于分配任务的调用。

相关推荐
果粒蹬i19 分钟前
Elasticsearch 单机部署实测:安装流程、常见坑点与远程访问配置
大数据·elasticsearch·搜索引擎
架构师老Y20 分钟前
013、数据库性能优化:索引、查询与连接池
数据库·python·oracle·性能优化·架构
AC赳赳老秦24 分钟前
OpenClaw数据库高效操作指南:MySQL/PostgreSQL批量处理与数据迁移实战
大数据·数据库·mysql·elasticsearch·postgresql·deepseek·openclaw
Kel24 分钟前
PydanticAI 源码深潜:类型安全依赖注入与图执行引擎的双核架构解析
人工智能·python·架构
小王毕业啦29 分钟前
2006-2023年 省级-建成区绿化覆盖率数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
十有八七29 分钟前
OpenHarness 架构说明文档
人工智能·架构
贵慜_Derek35 分钟前
Managed Agents 里,Harness 到底升级了什么?
人工智能·算法·架构
Tadas-Gao38 分钟前
从“驯马”到“驭队”:Harness Engineering 如何重构 AI 产品化的底层逻辑
人工智能·语言模型·架构·大模型·llm·harness
wasp5201 小时前
从 Vibe Coding 到真·生产力:OpenHarness 的“Harness 方程式”及其实战分析
人工智能·架构·开源·agent
OpenCSG1 小时前
OpenClaw × AgenticHub 架构解析:智能体系统如何真正具备执行能力
架构