Apache Spark 第六章：执行计划与 DAG 调度

第六章我们深入拆解 Spark 的执行计划与 DAG 调度机制，这是理解 Spark 为什么这样跑最核心的一章。

执行计划四阶段（第一张） 是理解 Spark SQL 工作原理的主线。一条 SQL 经历四次变换才真正被执行：

逻辑计划只是树形结构的操作描述，没有任何执行细节；
Catalyst Optimizer 用 50 多条规则对逻辑计划做谓词下推、列裁剪、常量折叠等变换，让数据尽早缩减；
Physical Planner 在优化后的逻辑计划基础上选择具体算法，比如用哪种聚合方式、用哪种 Join；
最后 Tungsten 把物理计划编译成 JVM 字节码，用 WholeStage CodeGen 把多个算子的循环合并成一个，消除虚函数调用开销，配合 SIMD 向量化真正高速执行。

查看执行计划用 df.explain("formatted")，生产排障必备。

Job → Stage → Task（第二张） 是 DAG 调度的三层结构。

一次 count() 或 write() 就是一个 Job；
Job 按宽依赖（Shuffle 边界）被 DAG Scheduler 切成多个 Stage，Stage 内部所有算子流水线执行无网络开销；
每个 Stage 被 Task Scheduler 拆成若干 Task 发给 Executor，一个 Partition 对应一个 Task，跑在一个线程上。
并行度由 Partition 数决定，spark.sql.shuffle.partitions 控制 Shuffle 后的分区数（默认 200，按数据量调整）。

Shuffle 机制（第三张） 是 Spark 最贵操作的完整剖析。

Map 端把每条数据按目标 Reducer 的 Hash 值排序写入本地磁盘，同时生成 index 文件记录偏移；
Reduce 端通过网络从所有 Mapper 的磁盘拉取属于自己 Key 的数据块，合并后聚合输出。
代价来源有四个：Spill 溢写磁盘、跨节点网络传输、序列化反序列化、GC 压力。
减少 Shuffle 的核心手段：
- 能 reduceByKey 就不用 groupByKey（Map 端预聚合）；
- 能 broadcast 就广播（彻底消除 Shuffle）；
- 开启 AQE 自动合并小分区；
- 调整 shuffle.partitions 匹配数据规模。

AQE 三大能力（第四张） 是 Spark 3.0 后最重要的运行时优化。

传统 Catalyst 只能在编译期用统计估算优化，AQE 则在每个 Stage 完成后收集真实数据量重新优化后续计划，相当于"边跑边调"。

三个核心能力：

这三项都默认开启，但倾斜阈值和分区目标大小值得根据业务数据分布手动调整。