【大数据学习 | 面经】Spark的shuffle hash join的具体细节

Mephisto.java2024-12-10 18:04

1. 前言

shuffle hash join是Spark中一种常见的连接策略，尤其适用于两个数据集都比较大且无法通过广播来优化的情况。其核心思想是通过对连接键进行哈希分区，使得相同键值的数据被分配到相同的分区中，从而可以在每个分区独立的执行连接操作。下面是详细剖析：

2. shuffle过程

2.1 哈希分区（hash Partitioning）

确定分区数：首先，Spark需要确定用于shuffle的分区数量。这个数量可以通过`spark.sql.shuffle.partitions`参数配置，默认是200个分区。
计算哈希值：对于参与连接的每一行数据，数据连接键计算出一个哈希值。
映射到分区：使用哈希值与分区数取模运算，将每行数据映射到特定的分区。

2.2 数据重分区

序列化和写入磁盘：在本地节点上，按照分区信息对数据进行排序，并将它们序列化后写入临时文件，这一步骤可能涉及到内存管理和磁盘I/O操作。
网络传输：然后，这些分片化的数据需要通过网络传输到目标节点上对应的分区。这是shuffle过程最耗时的部分。因为涉及到了大量的网络通信。
合并到目标分区：在接收端，来自不同节点的数据被读取并合并到一个分区中。为了提高效率，spark可能会尝试在内存中处理尽可能多的数据，只有当内存不足时才会溢写到磁盘。

2.3 构建哈希表

构建局部哈希表：一旦所有相关的数据都被收集到同一个分区中，就可以为其中一个较小的数据集（如果二者大小相近，则任意选取）构建一个哈希表。哈希表的每一条目包含连接键及其关联的值。

2.4 执行连接操作

查找匹配项：接下来，遍历另一个数据集的每一行，并使用连接键去查找哈希表中是否存在对应的条目，如果找到匹配项，则生成连接结果。

3. 注意事项：

数据倾斜：如果某些键值的数量远大于其他键值，会导致该分区的数据量异常大，进而造成性能瓶颈，这种情况被称为数据倾斜。
内存压力：由于需要创建哈希表并且可能涉及到大量数据的交换，shuffle hash join可能会对集群的内存资源造成压力。
网络带宽：大规模的数据交换意味着更高的网络流程需求，因此网络带宽也是影响性能的重要因素。

4. 优化建议：

使用AQE动态调整分区数量以应对数据倾斜问题。
对于可以广播的小表，可以考虑使用broadcast hash join来避免不必要的shuffle。
确保有足够的内存资源来支持shuffle操作，并根据实际情况来调整`spark.sql.shuffle.partitions`参数。

上一篇：说说 setOnClickListener 的几种方式与向上向下转型

下一篇：2030. gitLab A仓同步到B仓

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06GitLab 零基础入门指南：从安装到项目管理全流程 0746个Nano-banana 精选提示词，持续更新中 08windows找不到gpedit.msc（本地组策略编辑器）09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）102025软件测试面试八股文（含答案+文档）