Flink 运行架构和核心概念

几个角色的作用:

  • 客户端:提交作业
  • JobManager进程 任务管理调度
    • JobMaster线程 一个job对应一个JobMaster 负责处理单个作业
    • ResourceManager 资源的分配和管理,资源就是任务槽
    • 分发器 提交应用,为每一个新提交的作业启动一个新的JobMaster 组件
  • TaskManager 处理数据,每个TaskManager 都包含一定的slots

作业提交过程(Standlone)

  1. 提交作业到客户端
  2. 客户端解析参数 提交任务到JobManager
  3. JobManager通过分发器启动并提交应用(作业图 JobGraph),一个作业对应一个JobMaster
  4. JobMaster 将作业图 解析为可执行的执行图 Execution Graph,得到所需要的资源数,向资源管理器请求slots
  5. 资源管理器 向TaskManager请求资源 也就是slots
  6. TaskManager 会向资源管理器注册自己的任务槽,并提供
  7. JobMaster 分发任务给TaskManager

核心概念

并行度

特定算子子任务的个数。

设置有三种方式

  • 代码中设置

stream.map(word -> Tuple2.of(word, 1L)).setParallelism(2);

  • 提交应用时设置 全局设置

bin/flink run --p 2 --c com.atguigu.wc.SocketStreamWordCount

./FlinkTutorial-1.0-SNAPSHOT.jar

  • 配置文件中设置

算子

算子有两种

  • 一对一 类似于窄依赖
  • 重分区 类似于shuffle

并行度相同的 一对一的算子可以合并 成为 算子链

// 禁用算子链

.map(word -> Tuple2.of(word, 1L)).disableChaining();

// 从当前算子开始新链

.map(word -> Tuple2.of(word, 1L)).startNewChain()

任务槽

TaskManager所分配的特定的资源(内存)

任务槽数量的设置,在配置文件中 默认的数量是1

taskmanager.numberOfTaskSlots: 8

任务槽只是隔离内存 不隔离cpu所以 一般会把任务槽的数量设置为cpu的核数,避免不同任务对cpu的争抢。

同一个作业中的不同任务节点的并行子任务,可以放到同一个slot中执行

任务槽和并行度的关系:

占用任务槽的数量等于作业的最大并行度。

参考资料:25_Flink运行时架构_核心概念_并行度设置&优先级_哔哩哔哩_bilibili

相关推荐
华阙之梦10 小时前
【仅公网互通的 Spark 集群通信与配置实战方案】
大数据·ajax·spark
PS12323210 小时前
桥梁与隧道安全守护者 抗冰冻型风速监测方案
大数据·人工智能
CES_Asia10 小时前
资本赋能实体智能——2026 CES Asia机器人产业投资峰会定档北京
大数据·人工智能·microsoft·机器人
延凡科技10 小时前
延凡 APM 应用性能管理系统:AI+eBPF 驱动全栈智能可观测
大数据·人工智能·科技·能源
新诺韦尔API10 小时前
手机空号检测接口和手机号状态查询接口有什么区别?
大数据·智能手机·api
易连EDI—EasyLink10 小时前
EDI数据交换2026年展望:洞察2026年EDI数据交换的新范式
大数据·人工智能·edi·电子数据交换·as2
五度易链-区域产业数字化管理平台10 小时前
五度易链产业大脑:从数据融合到智能决策的技术实践
大数据·人工智能
赵谨言10 小时前
基于OpenCV的人脸五官识别系统研究
大数据·开发语言·经验分享·python
武子康10 小时前
大数据-187 Logstash Filter 插件实战:grok 解析控制台与 Nginx 日志(7.3.0 配置可复用)
大数据·后端·logstash
老蒋新思维11 小时前
创客匠人:工作流嵌入式智能体,重构知识变现的效率底层
大数据·服务器·人工智能·重构·创始人ip·创客匠人·知识变现