Spark运行架构核心是一个计算引擎
核心组件
- Driver(驱动器)
角色:Spark作业的"大脑",负责解析用户代码、生成任务并调度执行。
功能:
将用户程序转换为作业(Job)。
调度任务到Executor,监控任务状态。
-提供Web UI展示运行状态。
- Executor(执行器)
角色:集群中的工作节点,实际执行任务的JVM进程。
功能:
运行具体任务(Task),返回结果给Driver。
通过内存缓存RDD数据,加速计算。
- Master & Worker
Master:资源调度管理者(类似YARN的ResourceManager),负责分配集群资源。
Worker:集群中的物理节点,执行Master分配的任务。
- ApplicationMaster
作用**:解耦资源管理与计算调度,向ResourceManager申请资源并监控任务。
核心概念
- Executor与Core
每个Executor可配置多个虚拟CPU核(Core),决定并行计算能力。
-提交应用时需指定Executor数量及资源(如内存大小)。
- 并行度(Parallelism)
-集群中同时执行的任务数量,可通过配置动态调整,直接影响作业效率。
- 有向无环图(DAG)
Spark将作业拆分为多个Stage,以DAG形式表示任务依赖关系,避免循环依赖,优化执行顺序。
任务提交流程(YARN模式)
Spark支持两种部署模式,区别在于Driver的运行位置:
- YARN Client模式
适用场景:测试环境。
特点:
-Driver运行在本地客户端,与集群交互。
任务提交后,ResourceManager启动ApplicationMaster,后者申请资源并启动Executor。
- YARN Cluster模式
适用场景:生产环境。
特点:
Driver直接运行在YARN集群中(由ApplicationMaster担任)。
更适合长时间运行的作业,资源管理更稳定。
共同流程:
Executor启动后向Driver注册,触发Action算子后生成Job。
根据宽依赖划分Stage,分发Task到Executor并行执行。
Spark RDD核心解析:弹性分布式数据集的奥秘
Apache Spark的核心竞争力之一在于其高效的分布式数据结构
RDD是Spark中最基本的数据抽象,具有以下核心特性:
弹性:
存储弹性:内存不足时自动切换至磁盘。
容错弹性:数据丢失后通过血缘关系自动恢复。
计算弹性:任务失败自动重试。
分片弹性:支持动态调整分区。
分布式:数据分散在集群节点并行处理。
不可变:只能通过转换生成新RDD,保障数据一致性。
RDD的五大核心属性
-
分区列表:数据划分为多个分区,实现并行计算。
-
分区计算函数:每个分区独立执行计算逻辑。
-
依赖关系:记录父RDD与子RDD的血缘关系,用于容错。
-
分区器:Key-Value数据可自定义分区策略。
-
首选位置:优化数据本地化,减少网络传输。
RDD执行原理
-
资源申请:Spark先向集群申请计算资源(Executor)。
-
逻辑分解:将程序拆分为多个Task,每个Task对应一个分区。
-
任务分发:Driver调度Task至Executor并行执行。
-
结果整合:最终计算结果返回Driver或写入外部存储。
RDD序列化与依赖关系
序列化:
闭包检测:算子外的数据需可序列化,否则任务失败。
Kryo框架:比Java序列化快10倍,Spark默认用于简单数据类型。
依赖关系:
窄依赖:父RDD的每个分区仅被子RDD的一个分区依。
宽依赖:父分区被多个子分区依赖,触发Shuffle。
RDD持久化:缓存与检查点
缓存(Cache/Persist):
将RDD数据暂存内存或磁盘,加速重复计算。
血缘关系保留,缓存丢失可回溯计算。
检查点(Checkpoint):
将数据持久化至HDFS等可靠存储,切断血缘以降低容错开销。
最佳实践:对Checkpoint的RDD先缓存,避免重复计算。
RDD分区器与文件读写
分区器:
Hash分区:按Key的哈希值分配分区(默认)。
Range分区:按Key范围分配,保证分区间有序。
文件读写:
支持格式:Text、CSV、SequenceFile、对象文件等。
存储系统:本地文件系统、HDFS、HBase等。