【spark面试】spark的shuffle过程

概述

所有的shuffle的过程本质上就是一个task将内存中的数据写入磁盘,然后另一个task将磁盘中的数据读入内存的过程。

对于mapreduce来说,我们将内存中的数据写入磁盘成为maptask,将磁盘中的数据读入内存称为reducetask。

而对于spark来说,有的算子的执行会同时会进行写入和读出,这就是shuffle算子,shuffle算子都是转换算子。

面试题1:什么是触发算子,什么是转换算子,什么是shuffle算子

触发算子:

take,count,saveAsTextFile,foreach,foreachpartition,min,max,mean,top,takeOrdered,collect,first,reduce。

转换算子:

filter,map,mapPartitions,flatMap,union,distict,mapValues,keys,values,sortBy,sortByKey,reduceByKey,groupBykey,repartition,coalesce,join类(join,fullOuterJoin,leftOuterJoin,rightOuterJoin)

shuflle算子:

flatMap,distinct,sortBy,sortByKey,reduceByKey,groupByKey,join类(join,fullOuterJoin,leftOuterJoin,rightOuterJoin),repartition,coalesce(根据情况)

spark中的shuffle

1)Hash Based Shuffle

复制代码
特点:没有排序,只分区,每个Task按照ReduceTask个数生成多个文件【M * R】 
优点:简单,数据量比较小,性能就比较高 
缺点:小文件非常多,数据量比较大性能非常差

2)Hash Based Shuffle 【优化后的,File Consolidation机制】

复制代码
两个Executor ,4个ReduceTask,那就是 2 * 4 = 8
进步在哪里?进度在于如果是以前 4 个 map 4 个 reduce  形成 16 个文件,现在引入 executor 以后,生成 8 个文件。

3)Sort Based Shuffle [目前最新的]

对于这种shuffle来说,需要将写和读分开展示

Shuffle Write

第一种:SortShuffleWriter:普通Sort Shuffle Write机制

复制代码
与MR的Map端Shuffle基本一致
生成一个整体基于分区和分区内部有序的文件和一个索引文件
特点:有排序,先生成多个有序小文件,再生成整体有序大文件,每个Task生成2个文件,数据文件和索引文件

第二种:BypassMergeSortShuffleWriter

复制代码
类似于优化后的Hash Based Shuffle
先为每个分区生成一个文件,最后合并为一个大文件,分区内部不排序
跟第一个相比,处理的数据量小,处理的分区数小于200 ,不在内存中排序。
场景:数据量小

第三种:UnsafeShuffleWriter

复制代码
Partition个数不能超过2^24-1个(大于200用这个)
场景:数据量大
Shuffle Read

只有一种

复制代码
类似于MapReduce中的Reduce端shuffle

MR:Reduce端的shuffle过程一定会经过合并排序、分组
相关推荐
工边页字6 分钟前
AI公司面试100%加分的话题:如何做 API成本预算
前端·后端·面试
天辛大师6 分钟前
天辛大师也谈大模型GEO技术,虚构与误导的重读
大数据·人工智能·决策树·随机森林·启发式算法
金融小师妹9 分钟前
基于多因子流动性模型的“黄金闪崩”解析:利率预期强化与资金再平衡驱动的金价8%下跌机制
大数据·人工智能·svn·能源
weixin_3077791310 分钟前
2025年中国研究生数学建模竞赛A题:通用神经网络处理器下的核内调度问题——解决方案与实现
开发语言·人工智能·python·数学建模·性能优化
焦糖玛奇朵婷10 分钟前
盲盒小程序开发|解锁开箱新体验[特殊字符]
大数据·开发语言·程序人生·小程序·软件需求
1104.北光c°11 分钟前
基于Canal + Kafka的高可用关注系统:一主多从关系链
java·开发语言·笔记·分布式·程序人生·kafka·一主多从
2501_9249526911 分钟前
Python深度学习入门:TensorFlow 2.0/Keras实战
jvm·数据库·python
黎阳之光12 分钟前
AI赋能安全新生态 黎阳之光锚定国家政策筑造数智防线
大数据·人工智能·算法·安全·数字孪生
WHD30612 分钟前
企业数据安全体系建设指南:从风险识别到技术落地的全流程(2026版)
大数据·网络·人工智能·安全·系统架构·密码学·安全架构