Spark运行架构

1.Spark比较Hive

由于MapReduce只适合做离线,计算复杂逻辑,存储到HDFS中的时间会比较长,会很效率底下。如果将一个MR的输出作为一个MR的输入频繁的读写HDFS会很耗费时间和IO资源。

Spark既可以做离线,也可以做实时,提供了抽象的数据集,有API算子,丰富的算子,并且使用了更先进的 DAG 有向无环图调度思想,可以对执行计划优化后再执行,并且数据可以缓存到内存中进行复用(通过控制算子)。Spark中多个作业之间的数据通信是基于内存(Spark 中除了基于内存计算这一个计算快的原因,还有 DAG 有向无环图来切分任务的执行先后顺序),而 MR 是基于磁盘。 Spark不具有存储的能力,存储是在HDFS中。Spark是可以替代MR的计算框架,还可以用SparkSQL替换Hive的查询框架。Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不足导致 Job 执行失败。此时,MapReduce 其实是一个更好的选择,所以 Spark 并不能完全替代 MR。

特点

:计算不走MR会,基于内存会快不止100倍,基于磁盘快10倍以上

易用性:Spark 支持 Scala、Java、Python、R 和 SQL 多种语言,还支持超过 80 种高级算法,使用户可以快速构建不同的应用。

通用:Spark 提供了统一的解决方案。Spark 可以用于批处理(Spark Core)、交互式查询(Spark SQL)、实时流处理

(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

2.运行架构

启动集群,Worker节点向Master汇报资源情况(CPU和内存)

Client提交Application,根据不同的运行模式在不同的位置创建Driver进程。

Application中创建SparkContext链接Mater,并注册申请资源。

Mater根据Worker汇报的资源情况,分配资源Executer;

Worker像Driver反向注册,资源准备好,可以开始执行进程。

SparkContext解析Application代码,创建RDD,构建DAG有向图。

DAGScheduler 分解成 Stage(Shuffle),当碰到执行算子时,产生Job(一个Job中有一个或多个Stage),Stage分区数据(Task)提交给分配到的Work中的Executor中

最后Excutor启动多线程计算

计算处理后告诉SparkContext,SparkContext告知Mater数据处理完毕,可以注销,然后释放资源。

2.1资源申请粒度

粗粒度资源申请(Spark)

在执行Application之前申请好资源,给任务调度,所有的Task执行完成之后才会释放这些资源。。

**优点:**任务启动快,执行快,Stage快,Job快,Application的执行也快。

**缺点:**最后一个Task执行完了之后才会释放资源,资源利用的不充分

细粒度资源申请

让 Job 中的每一个 Task 在执行前自己去申请资源, Task 执行完成就立刻释放资源。

优点:集群的资源可以充分的利用。

缺点:Task自己申请资源,Task变慢了,Application也就慢了。

2.1Local本地模式

在本地执行 Spark 代码的环境,本地模式就是一个独立的进程,通过其内部的多个线程来模拟整个 Spark 运行时环境,每个线程代表一个 Worker。

2.2Standalone

Spark自带的集群模式,

Standalone CLient

在 Standalone Client 模式下,如果在 Master 上提交应用,那么 Driver 就在 Master;如果在 Worker 上提交应用,那么Driver 就在 Worker,如果直接在自己的 PC 上提交应用,比如在 IDEA 中使用 val sc = new SparkContext("spark://node01:7077","AppName") 去连接 Master 的话,Driver 就在自己的 PC 上,但是不推荐这样的方式,因为 PC 和 Workers 可能不在一个局域网,Driver 和 Executor 之间的通信会很慢。

Standalone CLuster

Standalone Cluster 模式下,任务提交后,* *Master** 会找到一个 Worker 启动 Driver 进程 ,这时候Driver在Work中。

YARN模式

YARN 是 Hadoop 的资源调度框架,Spark 也可以基于 YARN 来计算(将 Spark 应用提交到 YARN 上运行)。Spark 客户

端直接连接 YARN,不需要额外构建 Spark 集群,国内使用较多。Spark 中的各个角色运行在 YARN 的容器内部,并组成Spark 集群环境。

YARNClient

YARN Client 模式下,* *Driver** 在应用提交的本地机器上运行

YARN Cluster
相关推荐
CoovallyAIHub3 分钟前
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star
人工智能·架构
CoovallyAIHub6 分钟前
多 Agent 手术推理框架:Agent 辩论+RAG 补上手术知识,零样本超越监督基线 14.6 个百分点
算法·架构·机器人
AI营销快线14 分钟前
AI营销获客难?原圈科技深度解析SaaS系统增长之道
大数据·人工智能
风123456789~18 分钟前
【架构专栏】第1章 绪论
架构
LONGZETECH40 分钟前
无人机操控仿真教学软件技术解析:架构、功能实现与落地实践
架构·无人机·无人机仿真教学软件·无人机教学软件·无人机虚拟仿真
CoovallyAIHub42 分钟前
MSSP | 不停机不贴标监测旋转风机叶片:无人机+YOLOv5+DeepSORT,2MW 风机现场测试频率误差<2%
人工智能·架构
星幻元宇VR1 小时前
VR环保学习机|科技助力绿色教育新模式
大数据·科技·学习·安全·vr·虚拟现实
殷紫川1 小时前
告别手动部署噩梦:CI/CD 持续交付全链路实战
运维·架构·自动化运维
miss1 小时前
Vue2 → Vue3 深度对比:8 大核心优化,性能提升 2 倍
前端·vue.js·架构
码路高手1 小时前
Trae-Agent中的agent核心控制逻辑
人工智能·架构