shuffle——spark

zmd-zk2024-12-17 13:06

什么是shuffle

shuffle过程本质上是磁盘读写的过程

Spark Shuffle过程也叫作宽依赖过程

Spark中哪些算子会产生Shuffle？

复制代码

连接类 ：join fullOuterJoin leftOuterjoin rightOuterJoin
分区类：repartition coalesce（根据情况）
排序类：sortBy sortByKey
汇总类：reduceBykey groupBykey
去重类：distinct
flatmap

spark中的shuffle

1）Hash Based Shuffle

复制代码

特点：没有排序，只分区，每个Task按照ReduceTask个数生成多个文件【M * R】优点：简单，数据量比较小，性能就比较高缺点：小文件非常多，数据量比较大性能非常差

2) Hash Based Shuffle 【优化后的，File Consolidation机制】

两个Executor ，4个ReduceTask，那就是 2 * 4 = 8 进步在哪里？进度在于如果是以前 4 个 map 4 个 reduce 形成 16 个文件，现在引入 executor 以后，生成 8 个文件。生成的文件数量 =Executor的数量*reduce任务的数量原来：生成的文件数量 =map任务的数量*reduce任务的数量

3) Sort Based Shuffle [目前最新的]

Shuffle Write

第一种：SortShuffleWriter：普通Sort Shuffle Write机制

复制代码

与MR的Map端Shuffle基本一致
生成一个整体基于分区和分区内部有序的文件和一个索引文件
特点：有排序，先生成多个有序小文件，再生成整体有序大文件，每个Task生成2个文件，数据文件和索引文件

第二种：BypassMergeSortShuffleWriter

复制代码

类似于优化后的Hash Based Shuffle
先为每个分区生成一个文件，最后合并为一个大文件，分区内部不排序
跟第一个相比，处理的数据量小，处理的分区数小于200 ，不在内存中排序。
场景：数据量小

第三种：UnsafeShuffleWriter

复制代码

Partition个数不能超过2^24-1个（大于200用这个）
场景：数据量大

Shuffle Read

复制代码

类似于MapReduce中的Reduce端shuffle

MR：Reduce端的shuffle过程一定会经过合并排序、分组