Flink中并行度和slot的关系——任务和任务槽

一、任务槽(task slots)

Flink的每一个TaskManager是一个JVM进程,在其上可以运行多个线程(任务task),那么每个线程可以拥有多少进程资源呢?任务槽就是这样一个概念,对taskManager上每个任务运行所占用的资源做出明确的划分,即每个任务槽就表示了TaskManager拥有计算资源的一个固定大小的子集。

二、任务槽数量的设置

一个slot独享taskManager意味着更高的隔离级别,任务彼此之间影响降低;多个slot则能共享TCP连接、心跳信息、数据集等, 减少了每个任务的运行开销,在降低隔离级别时提高了性能。

可以通过taskmanager.numberOfTaskSlots参数来设置slot数量,最好设置为Cpu核数,因为slot仅仅用来隔离内存,避免不同任务对cpu的竞争。

三、共享slot

对于不同任务节点的子任务,Flink允许它们共享slot。即每个任务节点的子任务一字排开,占据不同的slot, 不同任务节点的子任务可以共享slot

那么为什么要共享slot呢?引文不同任务节点所需资源是不同的,有些是资源密集型,有些是资源非密集型。设想这样一种情况:在不共享时,有三个任务节点:source/map(这里由于并行度一致,所以合并算子链了)、widdow、sink,其中window是资源密集型的,那么当大量数据到来时,source/map和sink都可以很快完成,但window任务耗时很久,于是下游的sink任务所占据的slot就会因为等待而闲置,而上游的source/map任务也会因为数据积压而产生背压,从而资源开始等待,这样资源的利用效率就会大大降低。

解决这一问题的思路就是共享slot,在一个slot上同时存在资源密集型和非密集型任务,它们自由分配对资源的占用比例(即将资源密集型任务平均分配到每一个slot)从而提升资源利用率。

默认情况下,由于同一任务节点的并行子任务不能共享slot,所以**slot的数量就取决于所有算子并行度的最大值。**当然,也可以通过slotSharingGroup手动指定共享slot。

四、并行度和slot的关系

slot是静态的概念,指taskManager所拥有的并发执行能力;并行度是动态的概念,指实际运行中的并发能力。因此,并行度应当<=slot数,一旦超出也只能等待。因此,所有算子并行度中最大的那个就代表所需的slot数。

相关推荐
Irene19916 分钟前
大数据开发中常见的排序算法
大数据·排序算法
蓝眸少年CY25 分钟前
Azkaban - 入门教程
大数据·azkaban
清 晨28 分钟前
海外社媒内容审核加强跨境卖家如何避免限流
大数据·人工智能·矩阵·新媒体运营·内容营销
盟接之桥37 分钟前
打破全球供应链“黑盒”:盟接之桥®如何用标准化EDI重塑中国制造的数据主权与交付底气
大数据·网络·人工智能·汽车·制造
jedi-knight40 分钟前
Qwen3.5-27B 64K-Tools:一个面向本地部署的改进版大模型
大数据·数据库·人工智能
江瀚视野1 小时前
三亚首启两大创新店态,名创优品战略突围的逻辑何在?
大数据·人工智能
2501_933329551 小时前
企业媒体发布技术化转型:Infoseek舆情系统架构分析与应用实践
大数据·人工智能·自然语言处理·数据库开发
衫水1 小时前
企业级 Text-to-SQL 完整执行流程
大数据·数据库·sql
HUGu RGIN1 小时前
探索Spring Cloud Config:构建高可用的配置中心
大数据·elasticsearch·搜索引擎
isNotNullX2 小时前
2026年国产数据同步工具对比评测:DataX、Canal、Flink CDC与FineDataLink深度横评
大数据·flink