2024-02-22（Spark）

1.Spark Application程序入口为：SparkContext，任何一个应用首先需要构建SparkContext对象，两个步骤构建：

第一步，创建SparkConf对象。设置Spark Application基本信息，比如应用的名称AppName和应用运行Master。

第二步，基于SparkConf对象，创建SparkContext对象。

2.Python语言开发Spark程序步骤？

主要是获取SparkContext对象，基于SparkContext对象作为执行环境入口

3.如何提交Spark应用？

将程序上传到服务器上，通过spark-submit客户端工具进行提交。

在代码中不要设置master，如果设置，则以代码的master为准，spark-submit工具的设置就无效了。

提交程序到集群中的时候，读取的文件一定是各个机器都能访问到的地址，比如HDFS。

4.Spark集群角色回顾（YARN为例）

Master（ResourceManager）角色：集群大管家，整个集群的资源管理和分配。

Worker（NodeManager）角色：单个机器的管家，负责在单个服务器上提供运行容器，管理当前机器的资源。

Driver：单个Spark任务的管理者，管理Executor的任务执行和任务分解分配，类似YARN中的ApplicationMaster。

Executor：具体干活的进程，Spark的工作任务（Task）都有Executor来负责执行。

5.Python语言Spark程序运行的流程

Driver进程将构建的SparkContext对象序列化分发到各个Executor，Executor拿到SC（SparkContext）对象后，再各自的去HDFS中拿一部分数据进行处理。这就实现了分布式的处理HDFS中待处理的数据。然后再将各自处理完的数据结果汇总给Driver。（也就是说Driver开始，Driver汇总结束，中间全部是Executor分布式运行）

6.Python on Spark的运行原理

Spark是运行在Java虚拟机或者Scale虚拟机上的，因此Python语言是无法沟通的，因此有一个可以理解为Python Driver的东西和原始的JVM Driver进行通信（把python代码通过Py4j模块翻译为可以原生的JVMDriver去运行）

而在Executor端，Worker会启动一个pyspark的守护进程做一个中转站，完成python executor和JVM executor的中转。

整体流程：python代码来到Driver进程后，又Py4j转化为JVM Driver去命令各个Workder执行，然后Worker中的JVM Executor会通过pyspark守护进程来做中转，pyspark守护进程会将指令调度到pyspark worker去执行。（Executor端，本质上是python进程在工作，指令是由JVM Executor通过RPC通讯发送而来）

Python代码 ---> JVM代码 ---> JVM Driver ---> RPC ---> 调度JVM Executor ---> PySpark中转 ---> Python Executor进程

7.分布式代码执行的重要特征是什么？

代码在集群上运行，是被分布式运行的。（写的一份代码，但是运行是分布在多台机器上运行）

在Spark中，非任务处理部分由Driver执行（非RDD代码）

任务处理部分由Executor执行（RDD代码）

Executor的数量可以很多，所以任务的计算是分布式在运行的。

8.简述PySpark的架构体系

Python on Spark 在Driver端由JVM执行，Executor端由JVM做命令转发，底层由Python解释器来工作。

接下来进入Spark Core阶段（也就是Spark的一些核心算子（算子：API））

9.为什么需要RDD

分布式计算需要的要素：

a.分区控制（不同服务器负责运行的那一部分）

b.Shuffle/洗牌操作（不同服务器上运行数据的交互，归纳合并等操作）

c.数据存储/序列化/发送

d.数据计算API

e.等一些列的操作

以上这些功能，不能简单地通过Python内置的本地集合对象（如List/字典等去完成）。我们在分布式框架中，需要有一个统一的数据抽象对象，来实现上述分布式计算所需的功能，这个抽象对象，就是RDD。

RDD可以视为整个Spark框架中最核心的数据抽象对象，基本上大部分核心功能，都是由RDD来提供的。

10.RDD的定义

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变，可以分区，里面的元素可以并行计算的集合。

Dataset：一个数据集合，用于存放数据的（本地集合是本进程集合，RDD是跨越机器的，因此RDD集合是跨进程集合）

Distributed：RDD中的数据是分布式存储的，可用于分布式计算。（RDD的数据是跨越机器存储的/跨进程）

Resilient：RDD中的数据可以存储在内存中或者磁盘中。

姑且：把RDD视为一个增强的List集合对象吧。

11.RDD的5大特性

a.RDD是有分区的

b.RDD的方法会作用在其所有的分区上

c.RDD之间是有依赖关系的（RDD有血缘关系），RDD之间会进行迭代，形成一个依赖链条

d.Key-Value类型的RDD可以有分区器

默认分区器：Hash分区规则，也可以手动自己设置一个分区器（rdd.partitionBy方法来设置）

这个特性是可选的，因为也并不是所有的RDD都是Key-Value类型的格式

Key-Value型RDD：RDD中存储的是二元元组，便是Key-Value型RDD

e.RDD的分区规划，会尽量靠近数据所在的服务器

因为这样可以走本地读取，避免网络读取，提高性能。

12.WordCount结合RDD特性进行执行流程分析

13.不论是python，Scala，Java，Spark RDD程序的程序入口都是SparkContext对象

只有构建出来SparkContext对象，才能基于它执行后续的API调用和计算操作

本质上，SparkContext对于编程来说，主要功能就是创建第一个RDD出来

14.RDD创建的两种方式

a.通过并行化集合创建（本地对象转分布式RDD）

就是sparkContext对象去调用parallelize(参数1，参数2) API就行了。参数1：集合对象，参数2：分区数

b.读取外部数据源（读取文件）

就是sparkContext对象去调用textFile(参数1，参数2)API就行了。参数1：文件路径（支持本地文件和HDFS文件等），参数2：表示最小分区数

15.什么是RDD的算子

分布式集合对象（RDD）的API就是算子，换个昵称罢了。

分布式对象的API就是算子，叫做算子只是为了区分本地对象的API，本地的叫方法or函数；分布式对象的叫算子，仅此而已。

RDD算子分为两类：Transaction转换算子；Action动作算子。

返回值仍然是RDD的就是转换算子，反之，返回值不是RDD的就是动作算子。

转换算子是提供执行计划，它是懒加载的，需要等动作算子开始执行，才能让转换算子所预设的计划进行工作。

16.常见的转换算子

map算子：将RDD数据的一条条的处理（处理的逻辑基于map算子中接受的处理函数），返回新的RDD

flatMap算子：对RDD执行map操作，然后进行解除嵌套操作。

解除嵌套eg：

reduceByKey算子 ：针对KV型RDD，自动按照Key分组，然后根据你提供的聚合逻辑，完成组内数据（value）的聚合操作

groupBy算子：将RDD的数据进行分组

Filter算子：过滤想要的数据进行保留

distinct算子：对RDD数据进行去重，返回新的RDD

union算子：2个RDD合并成1个RDD返回

join算子：对两个RDD执行JOIN操作（可以实现SQL的内/外连接），只能用于二元元组

intersection算子：求2个RDD的交集，返回一个新的RDD

glom算子：将RDD的数据，加上嵌套，这个嵌套按照分区来进行

比如RDD数据[1,2,3,4,5]有两个分区，那么被glom之后，数据变为[[1,2,3],[4,5]]

groupByKey算子：针对KV型RDD，自动按照key分组

sortBy算子：对RDD数据进行排序,，基于你指定的排序依据

sortByKey算子：针对KV型RDD数据，按照key进行排序

countByKey算子：统计key出现的次数（一般用于KV型RDD）

collects算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象

fold算子：和reduce一样，接受传入逻辑进行聚合，聚合是带有初始值的

first算子：取出RDD的第一个元素

take算子：取RDD的前N个元素，组合成list返回

top算子：对RDD数据集进行降序排序，取出前N个

count算子：计算RDD有多少条数据，返回值是一个数字

takeSample算子：随机抽样RDD的数据

takeOrderd算子：对RDD进行排序取前N个

foreach算子：对RDD的每一个元素，执行你提供的逻辑的操作（和map一个意思），但是这个方法没有返回值

saveAsTextFile算子：将RDD的数据写入到文本文件中

mapPartitions算子：和map类似，但是map是一次传递分区中的一个数据，而mapPartitions一次传递一整个分区的数据过来进行计算。

foreachPartition算子：和普通的foreach一样，一次处理的是一整个分区数据

partitionBy算子：对RDD进行自定义分区操作

repartitions算子：对RDD分区执行重新分区