【大数据学习 | 面经】Spark的四种join方式

在Spark中,join操作用于合并两个数据集(如dataFrame和Dataset),其原理依赖于分布式计算的特性。Spark的join主要通过不同的连接策略来实现,选择哪种策略取决于多种因素,包括参数连接的数据集大小,是否进行了广播,是否有共同的分区分区键等。

1. Shuffle Hash Join

这是最常用的连接方式之一。当两个数据集都非常大且无法被广播时,Spark会使用shuffle hash join。这种连接方式的工作流程如下:

  • 数据按照连接键进行哈希分区。
  • 分区后的数据会在集群中重新分布。(shuffle)
  • 在每个工作节点上,对本地分区的数据执行连接操作。

这种方式的优点是通用性强,可以处理任意大小的数据集;缺点是需要进行全量的shuffle操作,这可能会带来较大的性能开销。

2. Broadcast Hash Join

当其中一个数据集相对较小(通常小于spark.sql.autoBroadcastJoinThreshold设置的阈值,默认为10M),spark可以将这个小的数据集广播到所有的工作节点上,然后在每个节点上与另一个大数据集进行连接。这种方式避免了shuffle操作,因此通常比shuffle hash join更快,但前提是广播的数据集必须足够小,以适应所有节点的内存。

3. Sort Merge Join

如果两个数据集都已经按照连接键排序,并且这些数据集很大,不适合广播,那么spark将采用sort Merge join。在这种情况下,spark首先会对两个数据集按照连接键排序,然后进行合并操作。此过程同样涉及到shuffle操作,因为数据可能需要重新分区以确保相同的键值的数据位于同一分区。sort Merge Join对于有序的数据集来说非常高效,但它也要求额外的排序步骤,这可能会增加一定的计算成本。

4. 笛卡尔积

当没有指定连接条件的时候,spark会执行笛卡尔积,即返回两个数据集所有行的组合。这种连接方式很少用,因为它会导致输出结果的数量急剧膨胀,通常是第一个数据集的行数乘上第二个数据集的行数。

5. 自适应查询执行和Join调优

从spark3.x开始引入的AQE功能可以在运行时动态优化join操作,例如,AQE可以根据实际的数据量决定是否应该使用广播连接,或者自动调整shuffle partitions的数量以优化性能。

相关推荐
MetrixAeroCore18 分钟前
企业级全球物联网连接平台|Metrix SIM 卡 + Cloud 管理・API・合规
大数据
我叫唧唧波6 小时前
Python+AI 全栈学习笔记
人工智能·python·学习
城北徐宫7 小时前
Linux信号深度解剖:5种产生、3张表、4次切换
linux·c++·学习
AI极客菌7 小时前
AI绘画工具中,为什么专业玩家爱用Stable Diffusion,普通玩家却喜欢Midjourney?
大数据·人工智能·ai·ai作画·stable diffusion·aigc·midjourney
腾视科技AI7 小时前
腾视科技大模型一体机解决方案:低成本私有化落地,重塑行业智能应用新格局
大数据·人工智能·科技·ai·边缘计算·算力·ai算力
金融支付架构实战指南8 小时前
支付系统 ES 实战案例:从索引创建到真实业务查询
大数据·elasticsearch·搜索引擎·支付
三品吉他手会点灯8 小时前
C语言学习笔记 - 43.运算符与表达式 - 运算符1 - 运算符的分类和简单介绍
c语言·笔记·学习·算法
吃好睡好便好10 小时前
芒种时节如何保健
学习·生活
百胜软件@百胜软件10 小时前
从“数据孤岛”到“智利标杆”:百胜E3全渠道中台助力“名创优品”Newtree实现一体化智变
大数据·人工智能·零售数字化·数智中台·珠宝行业
lizhihai_9910 小时前
股市学习心得-A股服务器/算力服务器龙头
大数据·运维·服务器·人工智能·科技·学习