【大数据学习 | 面经】Spark 3.x 中的AQE（自适应查询执行）

Mephisto.java2024-12-04 9:53

Spark 3.x 中的自适应查询执行（Adaptive Query Execution，简称 AQE）通过多种方式提升性能，主要包括以下几个方面：

动态合并 Shuffle 分区（Coalescing Post Shuffle Partitions）：
- 当 Shuffle 操作完成后，AQE 可以根据 Map 输出的统计信息自动合并过小的分区，以减少 Reduce 阶段的分区数量，从而提高查询效率。这个特性通过配置 spark.sql.adaptive.coalescePartitions.enabled 开启，默认在 Spark 3.2.0 及以后的版本中是启用的
动态切换 Join 策略：
- 在 Spark 2.x 中，broadcast-hash join 只能通过参数控制，不易精确控制。Spark 3.x 的 AQE 能够根据运行时的统计信息自动将 sort-merge join 切换到 broadcast-hash join，优化性能。
动态优化数据倾斜的 Join：
- 在 Spark 2.x 中，需要手动处理数据倾斜问题。Spark 3.x 的 AQE 可以自动将倾斜的分区分成更小的分区进行 join，极大优化性能。
动态裁剪分区（Dynamic Partition Pruning）：
- 在 Spark 2.x 中，优化器很难在编译时确定哪些分区可以跳过不读，导致读了一些不需要的数据。Spark 3.x 的 AQE 会首先过滤维表，根据过滤后的结果找到只需要读事实表的哪些分区，提升性能。
自动处理数据倾斜：
- AQE 自动检测并处理数据倾斜，通过将大型倾斜分区拆分为更小的分区，确保工作负载平衡，提高性能。
动态优化洗牌分区：
- AQE 根据实际数据的大小动态调整洗牌分区的数量，优化并行性和开销之间的平衡，增强资源管理，减少内存使用和执行时间。
减少手动调优需求：
- 传统的查询执行通常需要手动调优以实现最佳性能。AQE 自动化了许多这一过程，减少了手动干预的需求，使得开箱即用即可获得良好性能。

通过这些机制，AQE 在运行时动态优化执行计划，根据实时数据特征调整，从而提升查询性能，减少资源消耗，并减少手动调优的需求。这些改进使得 Spark 3.x 在处理大型或倾斜数据集时，相较于 Spark 2.x，性能有了显著提升。