简述Spark的宽窄依赖以及Stage是怎么划分的以及每个stage又是怎么划分task任务数

冰火同学2025-03-04 14:08

首先是Spark宽窄依赖的定义：

简单来理解的话，窄依赖就是父RDD的每个分区最多被一个子RDD所依赖，是一对一依赖，这种情况的操作例如union，flatMap这样的操作，不会产生shuffle。

宽依赖有别名叫做shuffle依赖，就是父RDD的每个分区会被多个子RDD所依赖，例如ReduceByKey，join这样的操作，会产生shuffle

所以划分Stage的边界就是宽依赖，而窄依赖会被流水线话的合并到同一个Stage中进行处理

在Stage中，决定Task数量有两方面的task数据：

一方面是shuffle中的shuffleMapStage的task数据会根据上游EDD的分区数进行划分，有多少个分区就有多少个Task数据。

另外的resultSta的task数据则会根据下游最终那个RDD的需要所分区数据进行分区，这里我们可以进行通过参数控制task的数据，那么就会有200个task任务数，默认是200个分区数据，可以根据实际情况进行优化调参数。