Spark中的shuffle过程详细

一、Spark中哪些算子会产生Shuffle

全局分组：reduceByKey，groupByKey

全局排序：sortBy，sortByKey

增大分区:repartition,coalese

groupByKey sortByKey sortBy reduceByKey repartition

coalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin

二、Spark中有哪些shuffle分类

Hash Based Shuffle （老的） Sort Based Shuffle 新的shuffle工具中包含Tungsten-Sort Based Shuffle

1、Hash Based Shuffle

没有排序，只有分区，每个Task按照ReduceTask个数生成【M*R】，简单数据量比较小，性能就比较高，但是：小文件非常多，数据量比较大性能非常差

2、Hash Based Shuffle 优化后，File Consolidation机制

没有排序，只有分区，每个Executor按照ReducTask个数生成多个文件：Executor*R

3、Sort Based Shuffle 目前是最新的

分为两个

Shuffle Write：类似于mr中map端的shuffle，但是Spark的Shuffle Write有3种，会根据情况自动判断选择哪种Shuffle Write

Shuffle Read：类似与mr种的reduce端shuffle，但是Spark的Shuffle Read功能由算子决定，不同算子经过的过程不一样

SortShuffleWrite：普通 Sort Shuffle Write

排序，生成一个整体基于分区和分区内部有序的文件和一个索引文件，有序排序，先生成多个小文件，再生成整体有序大文件，每个Task生成2个文件，数据文件和索引文件，Sort Shuffle Write过程与MapReduce的Map端shuffle基本一致

BypassMergeSortShuffleWriter：

类似与序列化后的Hash Based Shuffle，先每个分区生成一个文件，最后合并为一个大文件，分区内部不排序，分区数小于200，并且没有map端的聚合操作，适用于数据量小的数据，不在内存中排序

UnsafeShuffleWriter

钨丝计划方案，使用UnSafe API操作序列化数据，使用压缩指针存储元数据，溢写合并使用fastMerge提升效率，Map端没有聚合操作、序列化方式需要支持重定位，Partition个数不能超过2^24-1个

什么时候下使用ShuffleWriter

ShuffleWriter的实现方式

BypassMergeSortShuffleWriter

使用这种shuffle writer的条件是，没有map端的聚合操作，分区数小于参数：spark.shuffle.sort.bypassMergeThreshold，默认是200

UnsafeShuffleWriter

使用这种shuffle writer的条件是，序列化工具类支持对象的重定位，不需要在map端进行聚合操作，分区数不能大于：PackedRecordPointer.MAXIMUM_PARTITION_ID + 1

SortShuffleWriter

若以上两种shuffle writer都不能选择，则使用该shuffle writer类。

这也是相对比较常用的一种shuffle writer。

Shuffle Read：类似于MapReduce中的Reduce端shuffle

Reduce端的shuffle过程一定会经过合并排序、分组，不需要排序，依旧会给结果进行排序