大数据技术之Scala

Spark运行架构核心是一个计算引擎

核心组件

  1. Driver(驱动器)

角色:Spark作业的"大脑",负责解析用户代码、生成任务并调度执行。

功能:

将用户程序转换为作业(Job)。

调度任务到Executor,监控任务状态。

-提供Web UI展示运行状态。

  1. Executor(执行器)

角色:集群中的工作节点,实际执行任务的JVM进程。

功能:

运行具体任务(Task),返回结果给Driver。

通过内存缓存RDD数据,加速计算。

  1. Master & Worker

Master:资源调度管理者(类似YARN的ResourceManager),负责分配集群资源。

Worker:集群中的物理节点,执行Master分配的任务。

  1. ApplicationMaster

作用**:解耦资源管理与计算调度,向ResourceManager申请资源并监控任务。

核心概念

  1. Executor与Core

每个Executor可配置多个虚拟CPU核(Core),决定并行计算能力。

-提交应用时需指定Executor数量及资源(如内存大小)。

  1. 并行度(Parallelism)

-集群中同时执行的任务数量,可通过配置动态调整,直接影响作业效率。

  1. 有向无环图(DAG)

Spark将作业拆分为多个Stage,以DAG形式表示任务依赖关系,避免循环依赖,优化执行顺序。

任务提交流程(YARN模式)

Spark支持两种部署模式,区别在于Driver的运行位置:

  1. YARN Client模式

适用场景:测试环境。

特点:

-Driver运行在本地客户端,与集群交互。

任务提交后,ResourceManager启动ApplicationMaster,后者申请资源并启动Executor。

  1. YARN Cluster模式

适用场景:生产环境。

特点:

Driver直接运行在YARN集群中(由ApplicationMaster担任)。

更适合长时间运行的作业,资源管理更稳定。

共同流程:

Executor启动后向Driver注册,触发Action算子后生成Job。

根据宽依赖划分Stage,分发Task到Executor并行执行。

Spark RDD核心解析:弹性分布式数据集的奥秘

Apache Spark的核心竞争力之一在于其高效的分布式数据结构

RDD是Spark中最基本的数据抽象,具有以下核心特性:

弹性:

存储弹性:内存不足时自动切换至磁盘。

容错弹性:数据丢失后通过血缘关系自动恢复。

计算弹性:任务失败自动重试。

分片弹性:支持动态调整分区。

分布式:数据分散在集群节点并行处理。

不可变:只能通过转换生成新RDD,保障数据一致性。

RDD的五大核心属性

  1. 分区列表:数据划分为多个分区,实现并行计算。

  2. 分区计算函数:每个分区独立执行计算逻辑。

  3. 依赖关系:记录父RDD与子RDD的血缘关系,用于容错。

  4. 分区器:Key-Value数据可自定义分区策略。

  5. 首选位置:优化数据本地化,减少网络传输。

RDD执行原理

  1. 资源申请:Spark先向集群申请计算资源(Executor)。

  2. 逻辑分解:将程序拆分为多个Task,每个Task对应一个分区。

  3. 任务分发:Driver调度Task至Executor并行执行。

  4. 结果整合:最终计算结果返回Driver或写入外部存储。

RDD序列化与依赖关系

序列化:

闭包检测:算子外的数据需可序列化,否则任务失败。

Kryo框架:比Java序列化快10倍,Spark默认用于简单数据类型。

依赖关系:

窄依赖:父RDD的每个分区仅被子RDD的一个分区依。

宽依赖:父分区被多个子分区依赖,触发Shuffle。

RDD持久化:缓存与检查点

缓存(Cache/Persist):

将RDD数据暂存内存或磁盘,加速重复计算。

血缘关系保留,缓存丢失可回溯计算。

检查点(Checkpoint):

将数据持久化至HDFS等可靠存储,切断血缘以降低容错开销。

最佳实践:对Checkpoint的RDD先缓存,避免重复计算。

RDD分区器与文件读写

分区器:

Hash分区:按Key的哈希值分配分区(默认)。

Range分区:按Key范围分配,保证分区间有序。

文件读写:

支持格式:Text、CSV、SequenceFile、对象文件等。

存储系统:本地文件系统、HDFS、HBase等。

相关推荐
星辰瑞云20 小时前
scala-集合3
开发语言·后端·scala
吹35度风1 天前
Spark-Core编程
spark·scala·idea
Gvemis⁹2 天前
Scala总结(八)
开发语言·后端·scala
阿巴阿巴拉2 天前
Scala相关知识学习总结6
scala
一元钱面包3 天前
Scala课后总结(8)
scala
企鹅不耐热.3 天前
Scala基础知识7
开发语言·后端·scala
搞程序的心海3 天前
Scala语言基础:开启你的 Flink 之旅
大数据·开发语言·scala
WiKiLeaks_successor3 天前
Scala day2(val var function)
scala