跟着chatgpt学习|1.spark入门(2)

跟着chatgpt学习|1.spark入门-CSDN博客

3.Spark的执行和数据分区

3.1 spark执行流程

  1. 应用程序启动

Spark应用程序从驱动器程序开始执行,创建SparkContext对象。

  1. 任务划分

将应用程序操作划分为一系列任务,并分发给执行器。

  1. 任务调度

集群管理器将任务分配给可用的执行器。

  1. 任务执行

执行器启动任务执行线程,处理任务所需的数据。

  1. 数据处理

执行任务的线程对数据进行转换和操作。

  1. 数据传输与处理

数据在内存中共享和复用,根据需要在磁盘和内存之间交换。

  1. 结果返回

任务执行完成后,结果返回给驱动器程序。

  1. 应用程序结束

所有任务执行完成,驱动器程序处理结果并关闭SparkContext对象。

3.2 Spark的作业调度

Spark作业调度的过程如下:

  1. 当应用程序提交给Spark集群时,驱动器程序创建一个调度器(Scheduler)。

  2. 调度器根据应用程序的需求和集群的可用资源,将作业划分为一系列任务(Tasks)。

  3. 任务被分配给可用的执行器(Executors),并在集群中的工作节点上执行。

  4. 调度器会根据任务的依赖关系和数据分区,决定任务的执行顺序。

  5. 如果任务之间存在依赖关系,调度器会确保依赖任务在前置任务完成后才能执行。

  6. 调度器还会考虑数据本地性,尽可能将任务分配给存储有相关数据的工作节点,以减少数据传输的开销。

  7. 调度器会监控任务的执行状态,并处理失败的任务,例如重新分配或重新执行失败的任务。

  8. 一旦所有任务执行完成,调度器会将结果返回给驱动器程序,应用程序可以继续处理结果或进行下一步操作。

总的来说,Spark作业调度器负责将应用程序划分为可执行的任务,并将这些任务分配给可用的执行器进行并行执行。调度器考虑任务之间的依赖关系、数据本地性和资源利用等因素,以最大化作业的执行效率。

3.3 spark的数据分区

1.Hash分区

通过对数据的键进行哈希计算,将相同哈希值的数据分配到同一个分区。这种方式通常适用于需要均匀分布 数据的情况。

2.Range分区

根据数据的键的范围将数据划分为不同的分区。每个分区负责一定范围的键。这种方式通常适用于有序 的数据集。

3.Round-robin分区

将数据按照轮询的方式均匀分配到不同的分区。这种方式适用于需要均匀分布数据且不依赖键 的情况。

4.自定义分区

Spark还提供了自定义分区的功能,允许用户根据自己的需求实现特定的分区逻辑。

相关推荐
向上的车轮3 小时前
MATLAB学习笔记(七):MATLAB建模城市的雨季防洪排污的问题
笔记·学习·matlab
前端小崔4 小时前
从零开始学习three.js(18):一文详解three.js中的着色器Shader
前端·javascript·学习·3d·webgl·数据可视化·着色器
龙湾开发5 小时前
计算机图形学编程(使用OpenGL和C++)(第2版)学习笔记 10.增强表面细节(二)法线贴图
c++·笔记·学习·图形渲染·贴图
liang_20265 小时前
【HT周赛】T3.二维平面 题解(分块:矩形chkmax,求矩形和)
数据结构·笔记·学习·算法·平面·总结
虾球xz5 小时前
游戏引擎学习第290天:完成分离渲染
c++·人工智能·学习·游戏引擎
虾球xz5 小时前
游戏引擎学习第285天:“Traversables 的事务性占用”
c++·学习·游戏引擎
虾球xz6 小时前
游戏引擎学习第280天:精简化的流式实体sim
数据库·c++·学习·游戏引擎
深度学习入门6 小时前
学习深度学习是否要先学习机器学习?
人工智能·深度学习·神经网络·学习·机器学习·ai·深度学习入门
FAREWELL000756 小时前
Unity基础学习(十五)核心系统——音效系统
学习·unity·c#·游戏引擎
岁岁岁平安6 小时前
Vue3学习(组合式API——Watch侦听器、watchEffect()详解)
前端·javascript·vue.js·学习·watch侦听器·组合式api