大数据技术之Scala

Spark运行架构核心是一个计算引擎

核心组件

  1. Driver(驱动器)

角色:Spark作业的"大脑",负责解析用户代码、生成任务并调度执行。

功能:

将用户程序转换为作业(Job)。

调度任务到Executor,监控任务状态。

-提供Web UI展示运行状态。

  1. Executor(执行器)

角色:集群中的工作节点,实际执行任务的JVM进程。

功能:

运行具体任务(Task),返回结果给Driver。

通过内存缓存RDD数据,加速计算。

  1. Master & Worker

Master:资源调度管理者(类似YARN的ResourceManager),负责分配集群资源。

Worker:集群中的物理节点,执行Master分配的任务。

  1. ApplicationMaster

作用**:解耦资源管理与计算调度,向ResourceManager申请资源并监控任务。

核心概念

  1. Executor与Core

每个Executor可配置多个虚拟CPU核(Core),决定并行计算能力。

-提交应用时需指定Executor数量及资源(如内存大小)。

  1. 并行度(Parallelism)

-集群中同时执行的任务数量,可通过配置动态调整,直接影响作业效率。

  1. 有向无环图(DAG)

Spark将作业拆分为多个Stage,以DAG形式表示任务依赖关系,避免循环依赖,优化执行顺序。

任务提交流程(YARN模式)

Spark支持两种部署模式,区别在于Driver的运行位置:

  1. YARN Client模式

适用场景:测试环境。

特点:

-Driver运行在本地客户端,与集群交互。

任务提交后,ResourceManager启动ApplicationMaster,后者申请资源并启动Executor。

  1. YARN Cluster模式

适用场景:生产环境。

特点:

Driver直接运行在YARN集群中(由ApplicationMaster担任)。

更适合长时间运行的作业,资源管理更稳定。

共同流程:

Executor启动后向Driver注册,触发Action算子后生成Job。

根据宽依赖划分Stage,分发Task到Executor并行执行。

Spark RDD核心解析:弹性分布式数据集的奥秘

Apache Spark的核心竞争力之一在于其高效的分布式数据结构

RDD是Spark中最基本的数据抽象,具有以下核心特性:

弹性:

存储弹性:内存不足时自动切换至磁盘。

容错弹性:数据丢失后通过血缘关系自动恢复。

计算弹性:任务失败自动重试。

分片弹性:支持动态调整分区。

分布式:数据分散在集群节点并行处理。

不可变:只能通过转换生成新RDD,保障数据一致性。

RDD的五大核心属性

  1. 分区列表:数据划分为多个分区,实现并行计算。

  2. 分区计算函数:每个分区独立执行计算逻辑。

  3. 依赖关系:记录父RDD与子RDD的血缘关系,用于容错。

  4. 分区器:Key-Value数据可自定义分区策略。

  5. 首选位置:优化数据本地化,减少网络传输。

RDD执行原理

  1. 资源申请:Spark先向集群申请计算资源(Executor)。

  2. 逻辑分解:将程序拆分为多个Task,每个Task对应一个分区。

  3. 任务分发:Driver调度Task至Executor并行执行。

  4. 结果整合:最终计算结果返回Driver或写入外部存储。

RDD序列化与依赖关系

序列化:

闭包检测:算子外的数据需可序列化,否则任务失败。

Kryo框架:比Java序列化快10倍,Spark默认用于简单数据类型。

依赖关系:

窄依赖:父RDD的每个分区仅被子RDD的一个分区依。

宽依赖:父分区被多个子分区依赖,触发Shuffle。

RDD持久化:缓存与检查点

缓存(Cache/Persist):

将RDD数据暂存内存或磁盘,加速重复计算。

血缘关系保留,缓存丢失可回溯计算。

检查点(Checkpoint):

将数据持久化至HDFS等可靠存储,切断血缘以降低容错开销。

最佳实践:对Checkpoint的RDD先缓存,避免重复计算。

RDD分区器与文件读写

分区器:

Hash分区:按Key的哈希值分配分区(默认)。

Range分区:按Key范围分配,保证分区间有序。

文件读写:

支持格式:Text、CSV、SequenceFile、对象文件等。

存储系统:本地文件系统、HDFS、HBase等。

相关推荐
Bin Watson2 天前
解决 Builroot 系统编译 perl 编译报错问题
开发语言·scala·perl
什么芮.5 天前
大数据应用开发和项目实战(2)
大数据·pytorch·sql·spark·scala
不要天天开心6 天前
Spark-Streaming核心编程:有状态转化操作与DStream输出
scala
欧先生^_^7 天前
Scala语法基础
开发语言·后端·scala
不要天天开心9 天前
大数据利器:Kafka与Spark的深度探索
spark·scala
不要天天开心9 天前
Kafka与Spark-Streaming:大数据处理的黄金搭档
kafka·scala
什么芮.11 天前
spark-streaming
pytorch·sql·spark·kafka·scala
爱编程的王小美15 天前
Scala 入门指南
开发语言·后端·scala
旋风小飞棍15 天前
spark和hadoop的区别与联系
大数据·开发语言·scala
搞程序的心海19 天前
Flink 编程基础:Scala 版 DataStream API 入门
大数据·flink·scala