Flink 运行架构和核心概念

Made in Program2023-11-21 16:28

Flink 运行架构和核心概念

几个角色的作用：

客户端：提交作业
JobManager进程任务管理调度
- JobMaster线程一个job对应一个JobMaster 负责处理单个作业
- ResourceManager 资源的分配和管理，资源就是任务槽
- 分发器提交应用，为每一个新提交的作业启动一个新的JobMaster 组件
TaskManager 处理数据，每个TaskManager 都包含一定的slots

作业提交过程（Standlone）

提交作业到客户端
客户端解析参数提交任务到JobManager
JobManager通过分发器启动并提交应用（作业图 JobGraph），一个作业对应一个JobMaster
JobMaster 将作业图解析为可执行的执行图 Execution Graph，得到所需要的资源数，向资源管理器请求slots
资源管理器向TaskManager请求资源也就是slots
TaskManager 会向资源管理器注册自己的任务槽，并提供
JobMaster 分发任务给TaskManager

核心概念

并行度

特定算子子任务的个数。

设置有三种方式

代码中设置

stream.map(word -> Tuple2.of(word, 1L)).setParallelism(2);

提交应用时设置全局设置

bin/flink run --p 2 --c com.atguigu.wc.SocketStreamWordCount

./FlinkTutorial-1.0-SNAPSHOT.jar

配置文件中设置

算子

算子有两种

一对一类似于窄依赖
重分区类似于shuffle

并行度相同的一对一的算子可以合并成为算子链

// 禁用算子链

.map(word -> Tuple2.of(word, 1L)).disableChaining();

// 从当前算子开始新链

.map(word -> Tuple2.of(word, 1L)).startNewChain()

任务槽

TaskManager所分配的特定的资源（内存）

任务槽数量的设置，在配置文件中默认的数量是1

taskmanager.numberOfTaskSlots: 8

任务槽只是隔离内存不隔离cpu所以一般会把任务槽的数量设置为cpu的核数，避免不同任务对cpu的争抢。

同一个作业中的不同任务节点的并行子任务，可以放到同一个slot中执行

任务槽和并行度的关系：

占用任务槽的数量等于作业的最大并行度。

参考资料：25_Flink运行时架构_核心概念_并行度设置&优先级_哔哩哔哩_bilibili

上一篇：人工智能影响最高和最低的 20 个职业？一份报告带你了解 AI 时代的“职场多元宇宙”｜稀土掘金创新论坛回顾

下一篇：中间件安全：Apache 目录穿透.（CVE-2021-41773）

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 04React CVE-2025-55182漏洞排查与修复指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06BongoCat - 跨平台键盘猫动画工具 07UV安装并设置国内源 08打造高效订单处理！ZKmall开源商城的统一履约中心架构解析 09本地部署阿里最新开源的Z-Image 10Linux下V2Ray安装配置指南