Spark运行模式详解

Spark概述

Spark 可以在多种不同的运行模式下执行，每种模式都有其自身的特点和适用场景。

部署Spark集群大体上分为两种模式：单机模式与集群模式。大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境。但是在生产环境中，并不会使用单机模式。

Spark目前支持的部署模式。

YARN（Yet Another Resource Negotiator）是 Apache Hadoop 的资源管理器，可以用来在 Hadoop 集群上管理资源和调度任务。
Spark 可以作为 YARN 上的一个应用程序运行，在 YARN 模式下，Spark 将利用 YARN 来管理集群资源和调度任务。

在 Spark 中，YARN 模式下有两种常见的运行模式：yarn-client 和 yarn-cluster。它们的主要区别在于 Driver 程序的运行节点。

yarn-client 模式的优点是方便调试和监控，因为 Driver 程序直接运行在客户端机器上，可以直接查看其日志并与其交互。

然而，由于 Driver 程序运行在客户端机器上，它可能会成为性能瓶颈，尤其是当客户端机器的资源有限时。

在yarn-cluster模式下，Driver 程序运行在 YARN 集群中作为一个独立的应用程序。
当用户提交 Spark 应用程序时，Driver 程序会作为一个 YARN ApplicationMaster 启动在集群中，并由 YARN ResourceManager 分配资源。
一旦 ApplicationMaster 启动成功，它会协调在集群中启动的 Executor 进程，并与它们通信以执行任务。

yarn-cluster 模式的优点是可以更好地利用集群资源，并且 Driver 程序不会成为单点故障。

因为 Driver 程序运行在集群中，所以即使客户端机器宕机也不会影响 Spark 应用程序的执行。

但是，调试和监控会稍微复杂一些，因为 Driver 程序运行在集群中，需要查看集群中的日志和监控信息。

yarn-client 模式适用于调试和监控要求较低、资源较为充足的情况，而 yarn-cluster 模式适用于对资源利用率和容错性要求较高的情况。

Spark 的独立模式是一种简单的集群管理器，可以用来在独立的 Spark 集群上运行应用程序。在这种模式下，用户需要手动启动和管理 Spark 集群中的各个组件，如主节点和工作节点。
Standalone模式是Spark自带的资源调度引擎，构建一个由Master + Worker构成的Spark集群，Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群，不需要借助Hadoop的Yarn和Mesos等其他框架。