Flink -- 并行度

1、并行度:

对于一个Flink任务是有Source、Transformation和Sink等任务组成,一个任务由多个并行实例来执行,一个任务的并行实例数目被称为该任务的并行度。

2、TaskManager和Solt

Flink是一个分布式流处理框架,它基于TaskManager和Slot来实现任务的执行。TaskManager是Flink中负责运行任务的工作进程,而Slot是TaskManager中可用的资源。

TaskManager在Flink集群中分布式运行,每个TaskManager可以运行多个Slot。Slot是TaskManager中的资源分配单位,每个Slot可以运行一个Flink任务。TaskManager会根据需要动态分配Slot,以满足任务执行的需求。

3、共享资源槽:

1、 对于一个Task solt负责执行一个task这种部署方式来说,产生的问题是资源的浪费,此时Flink就有就共享资源槽。

2、共享资源槽:Flink并不是将task合并,而是上游的task和下游的task可以共享一个槽位,所以Flink需要使用多少资源和task的数量没有关系,而是和节点的最大并行度有关系,因为有几个并行度就需要几个槽位。

4、并行度的设置的方式:

1、env.setParallelism(2),设置并行度为2(Execution Environment Level(执行环境级别))

2、可以在提交任务的时候指定并行度,通过-p来指定( Client Level(客户端级别))

复制代码
flink run-application -t yarn-application  -p 2 -c flink.core.Demo1WordCount flink-1.0.jar

3、可以对每一个算子都单独的设置并行度(Operator Level(算子级别))

4、System Level 一般不使用

复制代码
在系统级可以通过设置flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度。

三者的优先级是:3---1---2
flink任务需要的资源和task数量无关,和并行相关,一个并行度需要一个资源(slot)
并行度大小的设置与数据的吞吐量有关
相关推荐
小沈跨境39 分钟前
2026TEMU一键催审:图审价审加站点,插队快速过审
大数据·产品运营·跨境电商·temu·跨境运营
fan65404141 小时前
全栈自研GEO系统的技术架构与算法快速适配实践——以文澜天下科技为例
大数据·科技·架构
zhojiew2 小时前
部署DataHub并导入Glue元数据以集成DBT和Spark ETL任务中数据血缘的实践
大数据·spark·etl
金融RPA机器人丨实在智能3 小时前
物流行业选自动化方案,如何评估与现有系统的集成难度?深度解析2026集成避坑指南
大数据·运维·人工智能·自动化
一切皆是因缘际会3 小时前
AI 从 “模仿智能” 到 “重构世界” 的范式跃迁
大数据·人工智能·深度学习·重构·架构
专注API从业者3 小时前
用 Open Claw + 淘宝商品接口,快速实现电商商品监控与智能选品(附完整代码)
大数据·前端·数据结构·数据库
Are_You_Okkk_3 小时前
无需配环境、不受设备限!MonkeyCode重新定义研发
大数据·人工智能·开源·团队开发·ai编程
kyraaa13 小时前
618智能灭蚊器什么牌子好?电灭蚊灯哪个牌子好用?综合测评希亦、绳池等10大热门灭蚊灯品牌!
大数据·人工智能·python
IT飞牛3 小时前
Elasticsearch 技术调研与实践
大数据·elasticsearch·搜索引擎
AI_yangxi3 小时前
短视频矩阵系统行业领先的厂家
大数据·人工智能·矩阵