宽窄依赖/宽窄巷子——spark

zmd-zk2024-12-16 20:51

宽窄依赖是用于标记算子是否需要shuffle过程的

------本质：只是一种标记，标记两个RDD之间的依赖关系，用于判断是否需要进行shuffle

复制代码

定义：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】 特点：一对一或者多对一 ，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

复制代码

定义：父RDD的一个分区的数据给了子RDD的多个分区 【需要调用Shuffle的分区器来实现】特点：一对多，必须经过Shuffle ，性能相对较慢，可以实现全局分区、排序、分组等 Spark的job中按照宽依赖来划分不同的Stage

复制代码

场景：如果子RDD的某个分区的数据丢失
不标记：不清楚父RDD分区与子RDD分区数据之间的关系，必须重新构建整个父RDD所有分区数据
标记了：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

复制代码

如果不标记，怎么知道哪些算子需要shuffer呢？
------------就只能把数据放在磁盘，让shuffer算子，去拉取数据，效率低