大数据 - Spark系列《十五》- spark架构

Spark系列文章：

[15.1 Yarn角色回顾](#15.1 Yarn角色回顾)

[15.2 Spark运行角色](#15.2 Spark运行角色)

[15.3 Spark的Job任务调度全流程](#15.3 Spark的Job任务调度全流程)

[15.4 Spark的任务提交全流程](#15.4 Spark的任务提交全流程)

[15.5 Spark应用程序](#15.5 Spark应用程序)

Yarn主要有四类角色，从2个层面去看：

资源管理层面：

任务计算层面：

Spark中由4类角色组成了整个spark的运行时环境

资源管理层面：

任务计算层面：

任务调度流程是指Spark集群中的资源管理器（如YARN或Mesos）将任务分配给可用的执行器（如Spark Worker）的过程。它包括以下步骤：

任务调度流程是任务提交全流程的一个组成部分，任务提交全流程包含了更多的步骤和细节。

Spark的任务，由Driver进行调度，这个工作包含：

如图，Spark程序的调度流程如图：

当使用命令行提交Spark任务代码时，首先会运行MAIN函数，创建SparkContext对象（构建DAGScheduler和TaskScheduler）。
因为Spark中的计算操作是基于RDD算子链进行的，对于转换算子，它只会形成了RDD之间的依赖关系，构建DAG有向无环图，只有在最后调用行动（action）算子时，才会触发job并调度执行。
执行时，Driver端会将有向无环图提交给DAGScheduler
DAG Scheduler(DAG调度器）会基于DAG图，按照宽窄依赖划分一个个stage.
stage被创建完之后，以stage为单位，将task封装到TaskSet里面。再把TaskSet提交给TaskScheduler
TaskScheduler(Task调度器）将逻辑Task分配到各个Executor上干活，并监控它们。
Worker(Executor)，主要就是听从它们的指令干活，并定期被向TaskScheduler汇报它的进度。

任务提交全流程是指将Spark应用程序提交到集群并执行的整个过程，包括任务调度流程以及其他相关步骤：

当我们用命令行提交任务代码后，会执行以下操作

一个Spark应用程序包括Job、Stage及Task：