2024-02-21（Spark）

1.Spark程序中的相关端口

4040：是一个运行的Application在运行的过程中临时绑定的端口，用以查看当前任务的状态。4040被占用会顺延到4041，4042等。4040是一个临时端口，当前程序运行完成后，4040就会被注销。

4040和Driver相关联，一个Driver启动起来，一个4040端口就被绑定起来，并可以查看该程序的运行状态。

8080：默认情况是StandAlone下，Master角色（进程）的WEB端口，用以查看当前Master（集群）的状态。（Driver和Master是两个东西，Master进程用于管理集群，Driver用于管理某次运行的程序，某个Driver程序运行完成，其所绑定的4040端口释放，但不会影响到Master进程）

18080：默认是历史服务器的端口，由于每个程序运行完成后，4040端口就要被注销，在以后想回看某个程序的运行状态就可以通过历史服务器查看，历史服务器长期稳定运行，可供随时查看记录的程序的运行过程。

2.Spark程序运行的层次结构

在Spark程序中，一个Driver程序运行，会分为多个Job程序来执行；在一个Job程序中又可以分为多个阶段来执行；一个阶段又可以分为多个Task来执行（可以理解为多个线程并行执行）。

打扫学校举例eg：

3.StandAlone阶段小总结

StandAlone原理？

Master和Worker角色以独立进程的形式存在，并且它们之间相互通讯，组成Spark运行时环境（集群）

Spark角色在StandAlone中的分布？

Master角色：Master进程；Worker角色：Worker进程；Driver角色：以线程运行在Master进程中；Executor角色：以线程运行在Worker中。

StandAlone如何提交Spark应用？

bin/spark-submit -- master spark://server:7077

4040\8080\18080分别是什么？

4040是单个程序运行的时候绑定的端口可供查看本任务运行情况。

8080是Master进程运行时默认的WEB ui端口，Master是独立的进程，不和Worker也不和Driver绑定，所以Driver运行完不会影响Master进程的运行，Driver关闭不影响Master进程。

18080是历史服务器的端口，可以供我们查看历史运行的程序（Driver）的运行状态。

Job\State\Task的关系？

一个Spark程序会被分为多个子任务（Job）运行，每一个Job会被分为多个State（阶段）来运行，每一个State（阶段）内会被分为多个Task（线程）来执行具体的任务。

4.Spark StandAlone HA集群模式（其实就是高可用的StandAlone模式，引入了zookeeper来做主节点切换/"灾备"/"主备切换"）

Spark StandAlone集群是Master-Slaves架构的集群模式，和大部分主从结构集群一样会存在主节点故障的问题。

由于上述StandAlone集群模式存在的问题，引出了高可用HA

提出了基于zookeeper的Standby Master架构模式：zookeeper提供了一个Leader Election机制，利用这个机制可以保证虽然集群存在多个Master，但是只有一个Active的，其他都是Standby。当Active的Master出现故障时，另外Standby Master会被选举出来。由于集群的信息，包括Master，Driver和Application的信息都已经持久化到文件系统，因此在切换的过程中只会影响新Job的提交，对于正在进行的Job没有任何影响。加入zookeeper的集群架构如下图所示：

5.StandAlone HA的搭建

搭建很简单，就是在StandAlone集群模式的配置文件中修改一两个配置项就好了。

6.StandAlone HA的原理

基于zookeeper做状态的维护，开启多个Master进程，一个作为活跃Master，其他的作为备份，当活跃进程宕机了，备份的Master来接管。

7.Spark on YARN（重点）

出现背景：按照前面所述，如果我们想要一个稳定的用于生产的Spark环境，那么最优秀的选择是构建HA StandAlone集群。但是，在企业中服务器资源通常有限，不过许多企业基本上都有Hadoop集群，也就是会有YARN集群。因此，对于企业来说，在已有YARN集群的前提下单独的搭建Spark StandAlone集群，对资源的利用率不高，所以，在企业中，多数场景下，会将Spark运行到YARN集群中。

YARN本身是一个资源调度框架，负责对运行在内部的计算框架进行资源调度管理。

作为典型的计算框架，Spark本身也是直接运行在YARN中，并接受YARN调度的。

所以，对于Spark on YARN，无需部署Spark集群，只要找一台服务器，从当Spark的客户端，即可提交任务到YARN集群中运行。（部署的时候，无需前面所述：在每一台服务器上安装Spark，然后启动Master，启动Worker，以及zookeeper什么的。。。，只需要在已有的YARN集群的基础上，找到一台服务器，充当Spark的客户端就可以了）