Spark Job 调度机制拆解：从 Action 算子到 Task 执行

搞 Spark 开发的同学，多多少少都会遇到这些问题：一个 Action 到底触发了几个 Job？Stage 是怎么划分的？Task 数量又是谁决定的？

这篇文章把 Spark Job 调度里的几个核心概念捋一遍，帮大家建立一个清晰的认知框架。

简单说，Spark 的 Job 调度就是框架底层根据 RDD 的逻辑链条，划分 Stage → 生成 Task → 提交执行的整个过程。

创建一个 SparkContext，就对应一个 Application。一个 Spark 程序通常就是一个 Application。

大家常说"一个 Action 算子触发一个 Job"，这个说法直观但不够精确，实际情况要复杂一些：

准确的定义是：触发一次 sc.runJob() 就是一个 Job，本质上就是一个 DAG 运算流程。

DAG（Directed Acyclic Graph），有向无环图。它描述的是一系列 RDD 之间的转换关系，可以理解为一张"执行蓝图"。

以 Shuffle 为分界线，把 DAG 从整体切成若干段，每一段就是一个 Stage。

为什么要这么切？因为同一个 Stage 内的 RDD 计算逻辑，可以放在一个 Task 里流水线执行（pipeline），不需要落盘，效率最高。而一旦碰到 Shuffle，数据要重新分发，就必须断开。

每个 Stage 包含一段计算逻辑，这段逻辑需要提交到集群上并行跑。每个并行执行的实例就是一个 Task ，一个 Stage 生成的这批 Task 叫做 TaskSet。

几个要点：

Spark 内部的 Task 分为两种：

类型	说明
ShuffleMapTask	非最终 Stage 产生的 Task，负责把计算结果按分区规则写到本地磁盘，供下游 Stage 拉取
ResultTask	最终 Stage 产生的 Task，负责把结果返回给 Driver 或写到外部存储

用一句话概括整个流程：

Action 触发 Job → Job 按 Shuffle 边界切分成多个 Stage → 每个 Stage 根据分区数生成 TaskSet → Task 提交到 Executor 上执行

理解了这个链路，再去看 Spark UI 上的 Job / Stage / Task 页面，就不会一脸懵了。

以上就是 Spark Job 调度的核心概念，东西不多但容易混淆。建议结合 Spark UI 实际跑几个任务看看，体感会更深。