shuffle——spark

什么是shuffle

shuffle过程本质上是磁盘读写的过程

Spark Shuffle过程也叫作宽依赖过程

Spark中哪些算子会产生Shuffle?

复制代码
连接类 :join fullOuterJoin leftOuterjoin rightOuterJoin
分区类:repartition coalesce(根据情况)
排序类:sortBy sortByKey
汇总类:reduceBykey groupBykey
去重类:distinct
flatmap

spark中的shuffle

1)Hash Based Shuffle

复制代码

特点:没有排序,只分区,每个Task按照ReduceTask个数生成多个文件【M * R】 优点:简单,数据量比较小,性能就比较高 缺点:小文件非常多,数据量比较大性能非常差

2) Hash Based Shuffle 【优化后的,File Consolidation机制】

两个Executor ,4个ReduceTask,那就是 2 * 4 = 8 进步在哪里?进度在于如果是以前 4 个 map 4 个 reduce 形成 16 个文件,现在引入 executor 以后,生成 8 个文件。 生成的文件数量 =Executor的数量*reduce任务的数量 原来:生成的文件数量 =map任务的数量*reduce任务的数量

3) Sort Based Shuffle 目前最新的

Shuffle Write

第一种:SortShuffleWriter:普通Sort Shuffle Write机制

复制代码
与MR的Map端Shuffle基本一致
生成一个整体基于分区和分区内部有序的文件和一个索引文件
特点:有排序,先生成多个有序小文件,再生成整体有序大文件,每个Task生成2个文件,数据文件和索引文件

第二种:BypassMergeSortShuffleWriter

复制代码
类似于优化后的Hash Based Shuffle
先为每个分区生成一个文件,最后合并为一个大文件,分区内部不排序
跟第一个相比,处理的数据量小,处理的分区数小于200 ,不在内存中排序。
场景:数据量小

第三种:UnsafeShuffleWriter

复制代码
Partition个数不能超过2^24-1个(大于200用这个)
场景:数据量大
Shuffle Read
复制代码
类似于MapReduce中的Reduce端shuffle

MR:Reduce端的shuffle过程一定会经过合并排序、分组
相关推荐
兵慌码乱2 小时前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot4 小时前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海9 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱11 小时前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽16 小时前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码16 小时前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
大大大大晴天16 小时前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
兵慌码乱1 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵1 天前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio1 天前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机