Spark核心知识总结

阿巴阿巴拉2025-04-10 8:12

一、Spark运行架构

（一）整体结构

Spark框架采用标准master - slave结构，Driver为master管理作业任务调度，Executor为slave负责实际执行任务。

（二）核心组件

Driver：执行Spark任务的main方法，将用户程序转化为作业，在Executor间调度任务，跟踪Executor执行情况并通过UI展示运行状况。
Executor：集群工作节点中的JVM进程，运行具体任务且任务相互独立。负责运行任务并返回结果，通过块管理器缓存RDD数据加速运算。
Master & Worker：在独立部署环境中，Master负责资源调度分配和集群监控，Worker在服务器上处理计算任务。
ApplicationMaster：在YARN集群中，负责申请资源、运行任务、监控任务状态和处理异常。

（三）核心概念

Executor与Core：Executor是计算节点，提交应用时可指定其数量、内存大小和虚拟CPU核数。
并行度：集群并行执行任务的数量，默认由框架配置，也可在运行时修改。
有向无环图（DAG）：Spark程序映射的数据流抽象模型，用于表示程序执行过程和拓扑结构。

（四）提交流程（基于Yarn环境）

Yarn Client模式：Driver在本地机器运行，向ResourceManager申请启动ApplicationMaster，由其申请Executor内存并启动Executor进程，Executor反向注册后Driver执行main函数，遇到Action算子触发Job并分发任务。
Yarn Cluster模式：任务提交后申请启动的ApplicationMaster就是Driver，后续流程与Client模式类似。

二、Spark RDD相关概念

（一）RDD概述

定义：弹性分布式数据集，是Spark基本数据处理模型，具有弹性、分布式、不可变等特性。
核心属性：包含分区列表、分区计算函数、依赖关系、分区器（可选）、首选位置（可选）。

（二）执行原理

在Yarn环境中，启动集群后，Spark申请资源创建调度和计算节点，将计算逻辑划分为任务，调度节点根据节点状态发送任务到计算节点执行。

（三）RDD序列化

闭包检查：检测算子外数据能否序列化，确保可在Executor端执行。
序列化方法和属性：算子外代码在Driver端执行，算子内代码在Executor端执行。
Kryo序列化框架：比Java序列化速度快10倍，Shuffle时部分数据已使用Kryo序列化，但仍需继承Serializable接口。

（四）RDD依赖关系

血缘关系：记录RDD元数据和转换行为，用于恢复丢失分区。
窄依赖与宽依赖：窄依赖指父RDD分区最多被子RDD一个分区使用；宽依赖指父RDD分区被多个子RDD分区依赖，会引发Shuffle。
阶段与任务划分：DAG记录RDD转换和任务阶段，Application、Job、Stage和Task之间是1对n关系。

（五）RDD持久化

Cache缓存：默认缓存在JVM堆内存，触发action算子时缓存，缓存丢失可重算。
CheckPoint检查点：将RDD中间结果写入磁盘，切断血缘依赖，提高容错性。
区别：Cache不切断血缘，可靠性低；CheckPoint切断血缘，数据存储在高可用文件系统。建议对CheckPoint的RDD使用Cache缓存。

（六）RDD分区器

支持Hash分区、Range分区和自定义分区，Hash分区为默认分区。只有Key - Value类型RDD有分区器，分区器决定分区个数和数据分配。

（七）RDD文件读取与保存

可处理text、csv、sequence、object等文件格式，支持本地文件系统、HDFS、HBASE和数据库等文件系统进行数据读取和保存。

上一篇：设计模式（23种设计模式简介）

下一篇：Redisson 实现分布式锁

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚