大数据-92 Spark 深入解析 Spark Standalone 模式：组件构成、提交流程与性能优化

点一下关注吧！！！非常感谢！！持续更新！！！

🚀 AI篇持续更新中！（长期更新）

AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布！"快的模型 + 深度思考模型 + 实时路由"，持续打造实用AI工具指南！📐🤖

💻 Java篇正式开启！（300篇）

目前2025年09月08日更新到： Java-118 深入浅出 MySQL ShardingSphere 分片剖析：SQL 支持范围、限制与优化实践 MyBatis 已完结，Spring 已完结，Nginx已完结，Tomcat已完结，分布式服务正在更新！深入浅出助你打牢基础！

📊 大数据板块已完成多项干货更新（300篇）：

包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈！ 大数据-278 Spark MLib - 基础介绍机器学习算法梯度提升树 GBDT案例详解

章节内容

上节完成的内容如下：

Spark程序的优化：广播变量、累加器
研究广播变量
研究累加器

Standalone提交

Standalone组成

Standalone 模式是Spark自带的集群管理模式，它由四个核心组件构成，各组件之间通过RPC机制进行通信：

Driver（驱动程序）
- 作为用户编写的Spark应用程序的入口点，运行main()方法
- 负责任务的解析、调度和监控
- 将用户程序转换为有向无环图(DAG)并分解为多个阶段(Stage)
- 在本地或集群中运行，当在集群中运行时，Driver会向Master注册应用
- 示例：当运行spark-submit提交应用时，指定的主类就是Driver程序
Master（主节点）
- 作为集群的资源管理器，采用主从架构
- 负责接收Driver的注册请求
- 管理所有Worker节点，监控其存活状态
- 根据资源需求调度和分配集群资源
- 默认监听7077端口，可以通过web UI(默认8080端口)查看集群状态
Worker（工作节点）
- 每个工作节点上运行一个Worker进程
- 负责向Master注册并汇报本节点的资源情况(CPU、内存等)
- 根据Master的指令启动/停止Executor
- 监控Executor的运行状态
- 一个集群可以包含多个Worker节点，通常部署在不同的物理机上
Executor（执行器）
- 每个Worker节点可以运行多个Executor
- 负责执行具体的Task任务
- 每个Executor包含多个线程池，用于并行执行Task
- 提供内存存储功能，可以缓存RDD数据
- 在执行过程中会向Driver汇报任务状态
- 示例：一个拥有8核CPU的Worker节点可能配置2个Executor，每个Executor使用4个核心

交互流程：

用户提交应用后，Driver向Master注册
Master根据资源需求，在Worker节点上分配资源
Worker根据分配启动指定数量的Executor
Executor启动后反向注册到Driver
Driver将Task分发到Executor执行

资源配置示例：

bash 复制代码

# 启动Master时指定资源
./sbin/start-master.sh -h <host> -p <port> --webui-port <web-ui-port>

# 启动Worker时指定资源
./sbin/start-worker.sh <master-spark-URL> -c <cores> -m <memory>

SparkContext组件

什么是SparkContext

SparkContext 是 Spark 应用程序的主控制器，它负责与 Spark 集群的管理节点（Driver）和工作节点（Workers）进行交互。通过 SparkContext，用户可以提交作业、管理 RDD（弹性分布式数据集）和其他数据集，并执行各种操作。SparkContext 是 Spark 应用程序的基础，每个应用程序在启动时都会创建一个 SparkContext 实例。

SparkContext 的主要职责

集群连接： SparkContext 负责连接到集群管理器（如 YARN、Mesos 或 Spark 的独立集群管理器），并获取集群的资源，以便在集群上执行任务。
作业调度： SparkContext 通过 DAG（有向无环图）将用户的应用程序逻辑转换为一系列任务（Tasks），然后将这些任务分配给集群中的工作节点执行。
RDD 管理： RDD 是 Spark 的核心抽象，用于表示分布式数据集。SparkContext 提供了创建 RDD 的方法，如从外部存储系统（HDFS、S3 等）中加载数据，或者从 Scala 集合创建 RDD。
广播变量和累加器： SparkContext 提供了广播变量和累加器的支持，广播变量用于在集群中的所有节点间共享只读数据，累加器用于在集群中执行全局计数或求和操作。
检查点：为了支持容错，SparkContext 提供了将 RDD 存储到可靠存储中的功能，这称为检查点。这样，在发生故障时，Spark 可以从检查点恢复 RDD。

SparkContext中的三大组件：

DAGScheduler：负责将DAG划分若干个Stage
TaskScheduler：将DAGScheduler提交的Stage（Taskset）进行优先排序，再将Task发送到Executor
SchedulerBackend：定义了许多与Executor事件相关的处理，包括：新的Executor注册进来的时候记录Executor的信息，增加全局的资源量（核数），Executor更新状态，若任务完成的话，回收Core，其他停止Executor、Remove Executor等事件

常用的 SparkContext 方法

parallelize: 将本地集合转换为 RDD。
textFile: 从文本文件中读取数据并创建 RDD。
stop: 停止 SparkContext。
broadcast: 创建广播变量。
accumulator: 创建累加器。

Standalone提交

启动应用程序，完成SparkContext的初始化
Driver向Master注册，申请资源
Master检查集群资源状况，若集群资源满足，通知Worker启动Executor
Executor启动后向Driver注册（称为反向注册）
Driver完成DAG的解析，得到Tasks，然后向Executor发送Task
Executor向Driver汇总任务的执行情况
应用程序执行完毕，回收资源

Shuffle原理

基本概念

Shuffle的本意是洗牌，目的是为了把牌弄乱。在数据处理领域，Shuffle是一个关键的操作过程：

基本定义

Spark、Hadoop中的Shuffle可不是为了把数据弄乱，而是为了将随机排列的数据转换成具有一定规则的数据。这是一个数据重新分配和重组的过程，确保相同key的数据能够被发送到同一个reduce任务进行处理。

在分布式计算中的定位

Shuffle是MapReduce计算框架中的一个特殊的阶段，介于Map和Reduce之间。它负责将Map阶段产生的中间结果按照key进行重新分区和排序，为Reduce阶段做好准备。例如，在单词计数应用中，Shuffle阶段会将所有相同单词的计数发送到同一个reduce任务。

技术实现特点

Shuffle涉及到了本地磁盘（非HDFS）的读写和网络传输。具体来说：
- Map任务会将输出写入本地磁盘的临时文件
- Reduce任务通过网络拉取这些中间数据
- 数据在传输前通常会被压缩以减少网络开销

性能影响

大多数Spark作业的性能都消耗在了Shuffle阶段，因此Shuffle性能的高低直接影响到了整个程序的运行效率。主要体现在：
- 磁盘I/O开销（特别是当数据量很大时）
- 网络传输开销（跨节点数据传输）
- 内存使用（需要缓存中间结果）

实际应用中，优化Shuffle过程（如调整分区数量、选择合适的序列化方式等）往往能显著提升作业性能。例如，在Spark中可以通过设置spark.shuffle.file.buffer参数来调整shuffle写缓冲区大小，从而改善性能。

Shuffle历史

Spark 0.8 及以前 Hash Based Shuflle
Spark 0.8.1 为 Hash Based Shuflle 引入 File Consolidation 机制
Spark 0.9 引入 External Append Only Map
Spark 1.1 引入 Sort Based Shuffle，但默认仍为 Hash Based Shuffle
Spark 1.2 默认的 Shuffle方式改为 Sort Based Shuffle
Spark 1.4 引入 Tungsten-Sort Based Shuffle
Spark 1.6 Tungsten-Sort 并入 Sort Based Shuffle
Spark 2.0 Hash Based Shuffle 退出历史舞台

Hash Base Shuffle V1

简单介绍

Hash-based Shuffle 是 Apache Spark 中数据分布和重新排序的一种方式。Shuffle 是指在不同阶段的任务之间重新分配数据的过程。Hash-based Shuffle 在 Spark 1.x 版本中引入，被称为 Shuffle V1。 Shuffle V1 是 Spark 最初版本使用的 Shuffle 机制，基于 Hash 方法实现数据分布。它的主要特点是通过对数据的键进行哈希处理，将数据分配到相应的 reducer 节点上。Shuffle V1 的实现相对简单，但在大规模数据处理时存在一些局限性，如磁盘 I/O 过多、垃圾回收压力大等。

每个 Shuffle Map Task 需要为每个下游的Task创建一个单独的文件
Shuffle 过程中会生成海量的小文件，同时打开过多的文件、IO效率低

工作原理

Map 端处理:

每个 map 任务在完成后，会根据键的哈希值将数据划分到不同的 bucket 中，这些 bucket 对应下游的 reduce 任务。
Map 任务会将这些数据块（称为 partition）写入本地磁盘，并为每个 reduce 任务生成一个文件（包括索引文件和数据文件）。

Reduce 端处理:

当 reduce 任务启动时，它会从所有 map 任务生成的输出中拉取对应的数据块。
Reduce 任务根据 map 任务输出的索引文件来读取相应的 partition 数据，并在本地进行聚合或其他处理。

局限性

磁盘 I/O: 每个 map 任务为每个 reduce 任务生成单独的文件，这会导致大量的小文件和频繁的磁盘 I/O 操作。当集群规模和数据量增大时，I/O 开销变得非常大。
垃圾回收: Shuffle V1 在处理过程中会产生大量的中间结果，导致 JVM 内存中会积累大量对象，增加了垃圾回收的压力，可能导致频繁的 GC 暂停（Stop-the-world）。
容错性: 如果某个任务失败，Spark 需要重新计算该任务的所有中间结果，Shuffle V1 没有很好的机制来优化这一过程。

适用场景

尽管 Shuffle V1 存在一些问题，但在小规模数据处理或集群中，Shuffle V1 的性能表现还是可以接受的，特别是对资源消耗较少的作业。不过，随着数据规模的增大，Shuffle V1 的局限性会变得明显，因此后续的 Spark 版本引入了更优化的 Shuffle 机制（Shuffle V2 和 Tungsten-Sort Based Shuffle）。

Hash Base Shuffle V2

简单介绍

Hash-Based Shuffle V2 是 Apache Spark 中对最初版本的 Hash-Based Shuffle 进行的改进，旨在解决 Shuffle V1 中存在的一些性能和稳定性问题。Shuffle 是分布式计算中数据重新分布的重要机制，而 Shuffle V2 的引入大大提高了 Spark 在处理大规模数据集时的性能和效率。

核心思想

Hash Base Shuffle V2 核心思想：允许不同Task复用同一批磁盘文件，有效将多个Task的磁盘文件进行一定程度上的合并，从而大幅度减少磁盘文件的数量，进而提升ShuffleWrite的性能，一定程度上解决了HashV1中的问题，但不彻底。 Hash Shuffle 规避了排序，提高了性能，总的来说在 Hash Shuffle过程中生成了海量的小文件

Shuffle V2 的改进点

合并输出文件:

在 Shuffle V2 中，map 任务不再为每个 reduce 任务生成一个单独的文件，而是将多个 partition 的输出合并到一个文件中。这样，每个 map 任务只生成一个数据文件和一个索引文件，大大减少了生成的小文件数量。
索引文件记录了每个 reduce 任务的数据在数据文件中的偏移量和长度，reduce 任务可以根据这个索引文件来定位它所需的数据。

磁盘 I/O 优化:

通过合并输出文件，Shuffle V2 大幅减少了磁盘 I/O 操作，减少了文件系统的压力，并且降低了与小文件相关的元数据管理开销。

内存消耗优化:

由于减少了文件数量，Shuffle V2 对 JVM 的内存压力也有所降低，垃圾回收（GC）的频率和时长得到了优化。

容错性改进:

Shuffle V2 采用了更加高效的数据管理机制，使得在任务失败时，重新拉取数据的开销更小。此外，数据文件的合并也使得在节点故障时可以更容易地恢复数据。工作原理

Shuffle V2 的工作原理

Map 端处理:

每个 map 任务在处理数据时，基于键的哈希值将数据分配到不同的 partition。与 Shuffle V1 不同的是，Shuffle V2 将多个 partition 的数据写入同一个文件。
同时生成一个索引文件，记录每个 partition 在数据文件中的位置和长度。 Reduce 端处理:
Reduce 任务通过索引文件，定位需要处理的数据块，并从 Map 任务的输出文件中读取相应的数据。
通过这种方式，减少了 I/O 开销，并优化了数据拉取的效率。

适用场景

Shuffle V2 适用于绝大多数的 Spark 作业，特别是在处理大规模数据集时效果尤为明显。它减少了磁盘 I/O 操作，优化了内存消耗，并提高了系统的容错性。对于需要高性能和稳定性的场景，Shuffle V2 是更好的选择。

Sort Base Shuffle

Sort Base Shuffle 大大减少了 Shuffle 过程中产生的文件数，提高 Shuffle 的效率。
Spark Shuffle 与 Hadoop Shuffle 从目的、意义、功能上看是类似的，实现上有区别。

RDD编程优化

RDD复用

避免创建重复的RDD，在开发过程中要注意，对于同一份数据，只应该创建一个RDD，不要创建过多个RDD来表示同一份数据。

RDD缓存/持久化

当多次对同一个RDD执行算子操作时，每一次都会对这个RDD以之前的父RDD重新计算一次，这种情况是必须要避免的，对同一个RDD的重复计算是对资源的极大浪费
对多次使用的RDD进行持久化，通过持久化将公共RDD的数据缓存到内存/磁盘中，之后对于公共RDD的计算都会从内存/磁盘中直接获取RDD数据
RDD的持久化是可以进行序列化的，当内存无法将RDD的数据完整的进行存放的时候，可以考虑使用序列化的方式减小数据的体积，将数据完整存储在内存中

巧用 filter

尽可能过早地执行filter操作，过滤无用数据
在filter过滤较多数据后，使用 coalesce 对数据进行重分区

使用高性能算子

避免使用 groupByKey，根据场景选择使用高性能的聚合算子：reduceByKey、aggregateByKey
coalesce、repartition，在可能得情况下优先选择没有Shuffle的操作
foreachPartition 优化输出操作
map、mapPartition，选择合理的选择算子，mapPartitions性能更好，但数据量过大时可能会OOM
用 repartitionAndSortWithinPartitions 替代 repartition + Sort 操作
合理使用 cache、persist、checkpoint，选择合理的数据存储级别
filter 的使用
减少对数据源的扫描（算法复杂）

设置合理的并行度

Spark作业中的并行度指各个Stage的Task的数量
设置合理的并行度，让并行度与资源相匹配，简单来说就是在资源允许的前提下，并行度尽可能大，达到充分利用集群资源。

广播大变量

默认情况下，Task中的算子中如果使用了外部变量，每个Task都会获取一份变量的副本，这会造多余的网络传输和内存消耗
使用广播变量，只会在每个Executor保存一个副本，Executor的所有Task共用此广播变量，这样就节约了网络及内存资源