Spark中的shuffle过程详细

一、Spark中哪些算子会产生Shuffle

全局分组:reduceByKey,groupByKey

全局排序:sortBy,sortByKey

增大分区:repartition,coalese

groupByKey sortByKey sortBy reduceByKey repartition

coalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin

二、Spark中有哪些shuffle分类

Hash Based Shuffle (老的) Sort Based Shuffle 新的shuffle工具中包含Tungsten-Sort Based Shuffle

1、Hash Based Shuffle

没有排序,只有分区,每个Task按照ReduceTask个数生成【M*R】,简单数据量比较小,性能就比较高,但是:小文件非常多,数据量比较大性能非常差

2、Hash Based Shuffle 优化后,File Consolidation机制

没有排序,只有分区,每个Executor按照ReducTask个数生成多个文件:Executor*R

3、Sort Based Shuffle 目前是最新的

分为两个

Shuffle Write:类似于mr中map端的shuffle,但是Spark的Shuffle Write有3种,会根据情况自动判断选择哪种Shuffle Write

Shuffle Read:类似与mr种的reduce端shuffle,但是Spark的Shuffle Read功能由算子决定,不同算子经过的过程不一样

SortShuffleWrite:普通 Sort Shuffle Write

排序,生成一个整体基于分区和分区内部有序的文件和一个索引文件,有序排序,先生成多个小文件,再生成整体有序大文件,每个Task生成2个文件,数据文件和索引文件,Sort Shuffle Write过程与MapReduce的Map端shuffle基本一致

BypassMergeSortShuffleWriter:

类似与序列化后的Hash Based Shuffle,先每个分区生成一个文件,最后合并为一个大文件,分区内部不排序,分区数小于200,并且没有map端的聚合操作,适用于数据量小的数据,不在内存中排序

UnsafeShuffleWriter

钨丝计划方案,使用UnSafe API操作序列化数据,使用压缩指针存储元数据,溢写合并使用fastMerge提升效率,Map端没有聚合操作、序列化方式需要支持重定位,Partition个数不能超过2^24-1个

什么时候下使用ShuffleWriter

ShuffleWriter的实现方式

BypassMergeSortShuffleWriter

使用这种shuffle writer的条件是,没有map端的聚合操作,分区数小于参数:spark.shuffle.sort.bypassMergeThreshold,默认是200

UnsafeShuffleWriter

使用这种shuffle writer的条件是,序列化工具类支持对象的重定位,不需要在map端进行聚合操作,分区数不能大于:PackedRecordPointer.MAXIMUM_PARTITION_ID + 1

SortShuffleWriter

若以上两种shuffle writer都不能选择,则使用该shuffle writer类。

这也是相对比较常用的一种shuffle writer。

Shuffle Read:类似于MapReduce中的Reduce端shuffle

Reduce端的shuffle过程一定会经过合并排序、分组,不需要排序,依旧会给结果进行排序

相关推荐
lizhihai_99几秒前
股市学习心得-六月的股市怎么应对
大数据·人工智能·科技·学习·区块链
新新学长搞科研4 分钟前
【广东省博促会主办】2026年第七届先进材料与智能制造国际学术会议(ICAMIM 2026)
大数据·前端·数据库·人工智能·物联网
大树885 分钟前
本周液冷三件事 #2|Vera Rubin 227kW 全液冷量产 · 34 省 PUE 政策汇编 · 光模块也要液冷了
大数据·服务器·人工智能
Amy1870211182318 分钟前
东南亚智慧物流园区的“隐形守护者”:有源滤波柜如何驯服变频器5/7次谐波
分布式·能源
OCR_1337162127533 分钟前
金融智能化落地:护照核验技术在银行场景的应用与实践
大数据·人工智能·金融
JAVA面经实录91736 分钟前
HBase 知识点梳理(文档型 NoSQL)
大数据·数据库·nosql数据库·hbase
2501_9336707939 分钟前
大数据专业大类招生模式
大数据
SAP上海工博云署40 分钟前
生产采购财务一体化ERP选型指南(中小制造/工贸企业适用)
大数据·人工智能·信息可视化·制造·信息与通信
梦想三三1 小时前
矿物智能识别项目实战(一):从零开始清洗工业矿物数据
大数据·人工智能·数据挖掘
2401_832298101 小时前
适配工业互联网场景,OpenClaw落地工厂智能运维,加速工业4.0无人化转型
大数据·人工智能