简述Spark的宽窄依赖以及Stage是怎么划分的以及每个stage又是怎么划分task任务数

首先是Spark宽窄依赖的定义:

简单来理解的话,窄依赖就是父RDD的每个分区最多被一个子RDD所依赖,是一对一依赖,这种情况的操作例如union,flatMap这样的操作,不会产生shuffle。

宽依赖有别名叫做shuffle依赖,就是父RDD的每个分区会被多个子RDD所依赖,例如ReduceByKey,join这样的操作,会产生shuffle

所以划分Stage的边界就是宽依赖,而窄依赖会被流水线话的合并到同一个Stage中进行处理

在Stage中,决定Task数量有两方面的task数据:

一方面是shuffle中的shuffleMapStage的task数据会根据上游EDD的分区数进行划分,有多少个分区就有多少个Task数据。

另外的resultSta的task数据则会根据下游最终那个RDD的需要所分区数据进行分区,这里我们可以进行通过参数控制task的数据,那么就会有200个task任务数,默认是200个分区数据,可以根据实际情况进行优化调参数。

相关推荐
Jackyzhe几秒前
Flink源码阅读:Checkpoint机制(下)
大数据·flink
低调电报9 分钟前
我的第一个开源项目:鸿蒙分布式“口袋健身”教练
分布式·开源·harmonyos
2501_9401986914 分钟前
【前瞻创想】Kurator分布式云原生平台:从架构解析到企业级多云集群管理实战指南
分布式·云原生·架构
科创致远16 分钟前
esop系统可量化 ROI 投资回报率客户案例故事-案例1:宁波某精密制造企业
大数据·人工智能·制造·精益工程
川2130 分钟前
Nacos和ZooKeeper的选型
分布式·zookeeper·云原生
醉舞经阁半卷书132 分钟前
zookeeper服务端配置
网络·分布式·zookeeper
周杰伦_Jay1 小时前
【探索实战】从0到1精通Kurator:分布式云原生平台实战教程
分布式·云原生·kurator
旺仔Sec9 小时前
2025年安徽省职业院校技能大赛(中职组)大数据应用与服务赛项样题
大数据
ctrigger10 小时前
中级统计师《统计基础理论及相关》考试大纲
大数据
SmartBrain11 小时前
洞察:阿里通义DeepResearch 技术
大数据·人工智能·语言模型·架构