Spark任务调度流程详解

Scala 复制代码

val rdd = sc.textFile("hdfs://data.txt")
  .flatMap(_.split(" "))
  .map((_, 1))
  .reduceByKey(_ + _)
rdd.collect()  // 触发Job提交

概念	说明	示例
Job	由行动操作（如`collect`）触发的完整计算任务	一次`collect()`生成一个Job
Stage	由一组无Shuffle依赖的Task组成（分为`ResultStage`和`ShuffleMapStage`）	`reduceByKey`前为一个Stage
Task	Stage中每个分区的计算单元（`ShuffleMapTask`或`ResultTask`）	处理一个分区的数据
Shuffle	跨Stage数据重分布（如`groupByKey`、`join`）	`reduceByKey`触发Shuffle
数据本地性	优先将Task调度到数据所在节点（`PROCESS_LOCAL` > `NODE_LOCAL` > `ANY`）	读取HDFS块时优先分配到数据所在节点

减少Shuffle：
- 用reduceByKey替代groupByKey（提前局部聚合）。
- 使用Broadcast Join代替Shuffle Join。
调整并行度：
- 通过spark.default.parallelism或repartition()控制分区数。
数据本地性：
- 确保输入数据与Executor在同一节点（如HDFS副本策略）。
资源分配：
- 合理设置Executor内存（spark.executor.memory）和CPU核心数（spark.executor.cores）。

Spark的调度机制通过DAG优化、本地性优先和容错设计，实现了高效的大数据处理。理解其原理后，可通过调整分区策略、优化Shuffle操作等手段显著提升性能。