shuffle——spark

什么是shuffle

shuffle过程本质上是磁盘读写的过程

Spark Shuffle过程也叫作宽依赖过程

Spark中哪些算子会产生Shuffle?

连接类 :join fullOuterJoin leftOuterjoin rightOuterJoin
分区类:repartition coalesce(根据情况)
排序类:sortBy sortByKey
汇总类:reduceBykey groupBykey
去重类:distinct
flatmap

spark中的shuffle

1)Hash Based Shuffle

复制代码

特点:没有排序,只分区,每个Task按照ReduceTask个数生成多个文件【M * R】 优点:简单,数据量比较小,性能就比较高 缺点:小文件非常多,数据量比较大性能非常差

2) Hash Based Shuffle 【优化后的,File Consolidation机制】

两个Executor ,4个ReduceTask,那就是 2 * 4 = 8 进步在哪里?进度在于如果是以前 4 个 map 4 个 reduce 形成 16 个文件,现在引入 executor 以后,生成 8 个文件。 生成的文件数量 =Executor的数量*reduce任务的数量 原来:生成的文件数量 =map任务的数量*reduce任务的数量

3) Sort Based Shuffle [目前最新的]

Shuffle Write

第一种:SortShuffleWriter:普通Sort Shuffle Write机制

与MR的Map端Shuffle基本一致
生成一个整体基于分区和分区内部有序的文件和一个索引文件
特点:有排序,先生成多个有序小文件,再生成整体有序大文件,每个Task生成2个文件,数据文件和索引文件

第二种:BypassMergeSortShuffleWriter

类似于优化后的Hash Based Shuffle
先为每个分区生成一个文件,最后合并为一个大文件,分区内部不排序
跟第一个相比,处理的数据量小,处理的分区数小于200 ,不在内存中排序。
场景:数据量小

第三种:UnsafeShuffleWriter

Partition个数不能超过2^24-1个(大于200用这个)
场景:数据量大
Shuffle Read
类似于MapReduce中的Reduce端shuffle

MR:Reduce端的shuffle过程一定会经过合并排序、分组
相关推荐
SchrodingerSDOG29 分钟前
算法刷题Day18: BM41 输出二叉树的右视图
数据结构·python·算法
B站计算机毕业设计超人33 分钟前
计算机毕业设计Python+CNN卷积神经网络高考推荐系统 高考分数线预测 高考爬虫 协同过滤推荐算法 Vue.js Django Hadoop 大数据毕设
大数据·爬虫·python·机器学习·课程设计·数据可视化·推荐算法
sinat_3070215335 分钟前
密码学——PKI概述、数字证书、国密算法、商密算法(山东省大数据职称考试)
大数据·安全·密码学
Aix95943 分钟前
Dijkstra算法最短路径可视化(新)
python·opencv·算法
kingbal1 小时前
RabbitMQ:windows系统安装
linux·分布式·rabbitmq
伍贰什丿1 小时前
C语言学习day22:URLDownloadToFile函数/开发文件下载工具
c语言·c++·学习
小成晓程1 小时前
opencv-python的简单练习
人工智能·python·opencv
小鹿( ﹡ˆoˆ﹡ )1 小时前
深入解析:Python中的决策树与随机森林
python·决策树·随机森林
AI2AGI1 小时前
天天 AI-241215:今日热点-OpenAI发布ChatGPT Projects,万能工具箱上线!
大数据·人工智能·ai·aigc