大数据学习(32)-spark基础总结

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门

💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


Spark提供多种运行模式:

1.本地模式(单机)

本地模式就是以一个 独立的进程 ,通过其内部的 多个线程来模拟 整个Spark运行时环境

2.Standalone模式(集群)

Spark中的各个角色以 独立进程 的形式存在,并组成Spark集群环境

3.Hadoop YARN模式(集群)

Spark中的各个角色 运行在 YARN 的容器内部 ,并组成Spark集群环境

4.Kubernetes模式(容器集群)

Spark中的各个角色 运行在 Kubernetes 的容器内部 ,并组成Spark集群环境

5.云服务模式(运行在云平台上)

spark运行模式图解:

Spark中由4类角色组成整个Spark的运行时环境

. Master角色,管理整个集群的资源
类比与YARN的ResouceManager
. Worker角色,管理单个服务器的资源
类比于YARN的NodeManager
.Driver角色,管理单个Spark任务在运行的时候的工作
类比YARN日的ApplicationMaster
Executor角色,单个任务运行的时候的一堆工作者,干活的.类比于YARN的容器内运行的TASK

从2个层面划分:资源管理层面:

。管理者: Spark是Master角色,YARN是ResourceManager。工作中: Spark是Worker角色,YARN是NodeManager从任务执行层面:
·某任务管理者: Spark是Driver角色,YARN是ApplicationMaster
·某任务执行者: Spark是Executor角色,YARN是容器中运行的具体工作进程。

Spark On Yarn的本质?

Master角色由YARN的ResourceManager担任.Worker角色由YARN的NodeManager担任.

Driver角色运行在YARN容器内或提交任务的客户端进程中真正干活的Executor运行在YARN提供的容器内。

重点:

Spark On Yarn两种模式:
Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。
Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低)

1.Driver运行在Client上,和集群的通信成本高。
2.Driver输出结果会在客户端显示
Cluster模式:生产环境中使用该模式
1.Driver程序在YARN集群中,和集群的通信成本低

2.Driver输出结果不能在客户端显示
3.该模式下Driver运行ApplicattionMaster这个节点上,由Yarn管理,如果出现问题,yarn会重启ApplicattionMaster(Driver)

所以在spark on yarn中提高资源利用率,在已有YARN的场景下让Spark收到YARN的调度可以更好的管控资源提高利用率并方便管理。

相关推荐
大力财经6 分钟前
纳米漫剧流水线接入满血版Seedance 2.0 实现工业级AI漫剧确定性交付
大数据·人工智能
EnglishJun26 分钟前
ARM嵌入式学习(十四)--- IMX6ULL的I2C通信实现
arm开发·学习
_李小白40 分钟前
【OSG学习笔记】Day 31: 渲染到纹理(RTT)
笔记·数码相机·学习
AI周红伟42 分钟前
OpenClaw是什么?OpenClaw能做什么?OpenClaw详细介绍及保姆级部署教程-周红伟
大数据·运维·服务器·人工智能·微信·openclaw
Elastic 中国社区官方博客1 小时前
当 TSDS 遇到 ILM:设计不会拒绝延迟数据的时间序列数据流
大数据·运维·数据库·elasticsearch·搜索引擎·logstash
嵌入式小企鹅1 小时前
蓝牙学习系列(七):BLE GATT 数据模型详解
学习·蓝牙·ble·蓝牙协议栈·蓝牙开发·gatt
Omics Pro1 小时前
虚拟细胞:开启HIV/AIDS治疗新纪元的关键?
大数据·数据库·人工智能·深度学习·算法·机器学习·计算机视觉
arvin_xiaoting1 小时前
OpenClaw学习总结_III_自动化系统_3:CronJobs详解
数据库·学习·自动化
沐风___1 小时前
Claude Code 权限模式完全指南:Auto、Bypass、Ask 三模式深度解析
大数据·elasticsearch·搜索引擎
少许极端2 小时前
算法奇妙屋(四十一)-贪心算法学习之路 8
学习·算法·贪心算法