spark-python

前言:本帖子是看了黑马教学视频结合spark八股,记录一下spark的知识.

一.spark介绍

1.1 spark的运行模式

1.2 spark的架构角色

在讨论spark的架构角色时,首先先回顾一下yarn的架构角色.

spark架构角色:

二.standalone 运行原理

2.1standalone架构

standalone中有三类进程:

  • master
  • worker
  • historyserver

在 standalone 模式下, master进程和 worker进程是固定的。

开启一个任务,就会在master进程中开启一个对应的 Driver线程 ,然后在worker进程中开启一个或者多个 Executor线程

开启两个任务,就会在master进程中开启两个对应的 Driver线程,对应的Executor各自汇报给对应的Driver,Executor数量根据你任务情况而定。

在该图中:

  • dirver运行在master进程中,executor运行在worker进程中.
  • master会管理worker的资源情况,worker会管理executor的任务运行情况.
  • 一个任务就有一个driver带有它工作的executor,两个任务有两个dirver带有它工作的executor.
  • 当任务完成之后,dirver就会消失(体现在任务的driver端口打不开),可以通过日志查看.

2.2 standalone的集群环境安装

2.2.1 集群规划

2.2.2 spark集群部署

  • 首先安装anaconda,因为spark要在python环境下执行, 所以要在三台电脑上安装python环境,并且创建虚拟环境.
  • 配置环境变量
  • 其他安装步骤

这里安装步骤不做介绍了(因为纯看课,没有实操)

2.2.3 spark

2.3 spark程序运行层次架构

  • 4040是一个程序运行时候绑定的端口,dirver和spark的application是绑定的,一个程序绑定一个,两个程序绑定两个,在运行的时候申请的端口,程序运行完,该端口注销,有几个application,就有几个端口.
  • 8080在程序运行之后也不会停止.
  • 18080:是查看历史运行状态的端口.
    spark在应用程序执行时,大概可以分为4个层级:

application-->job-->stage-->task

当我们在执行时,一个应用程序**(application)** 可能比较大,会分配出多个子任务**(job),最少一个子任务,每个任务有不同的stage** 运行,先干什么,在干什么,那阶段又可以分成几个task.

  • 在之后rdd的时候,会再详细介绍这些.

总结:

2.4 StandAlone HA

2.4.1 StandAlone HA 运行原理

StandAlone HA是由于StandAlone 工作架构是主从架构,master只有一个,会出现单点故障,如果主节点(master)宕机的话,那么整个集群就没有办法正常工作了,StandAlone HA就是为了解决这个问题而产生的.
基于zookeeper的Standby Masters(Standby Masters with ZooKeeper)--可以用于生产环境。
ZooKeeper提供了一个Leader Election机制,利用这个机制可以保证虽然集群存在多个Master,但是只有一个是Active (活跃)的,其他的都是Standby(备份)。当Active的Master出现故障时,另外的一个Standby Master会被选举出来。

  • spark集群启动的时候会启动多个master节点,master在配置了zookeeper HA模式之下,在启动的时候会去zookeeper注册一个临时节点,谁先启动,谁先注册成功,谁就是active的master,另一个作为standby进行监听.
  • worker启动成功之后,会和zookeeper进行通讯,就会得知谁是活跃的master.
  • 然后worker和该master组件成一个可用的集群.
  • 如果活跃的master宕机了,那他的临时节点失效,然后standby的master就注册临时节点,变成了active的master.
  • 然后workers从zookeeper中获得活跃的master节点,进行正常工作.

2.4.2 基于zookeeper搭建spark的Standalone HA集群.

这里不做过多介绍,没有搭建.

2.4.3 总结

三.spark on yarn的环境搭建(很重要实际生产中用)

这一节比较重要,但是这里仍然不搭建,笔记会详细记录.

3.1 spark on yarn的本质

首先如果我们想要一个稳定生产的spark环境,那么最优的选择就是构建:StandAlone HA集群.

其次,一般企业资源比较紧缺,基本上都会有hadoop集群,yarn和spark standalone都是可以进行资源调度的,再搭建standalone就比较费资源,那就出现了spark on yarn.

对于spark on yarn,无需部署spark集群,只要找一台服务器,充当spark的客户端,即可提交任务到yarn集群中运行.(这里找一台服务器充当客户端,什么意思?standalone 模式下不是这样嘛?)

答:

相关推荐
Vic233412 分钟前
Kafka简要介绍与快速入门示例
分布式·kafka
jinan8862 小时前
企业的移动终端安全怎么管理?
大数据·网络·安全·数据分析·开源软件
Lethehong2 小时前
崖山YashanDB:下一代国产分布式数据库的架构革新与行业实践
数据库·分布式·架构
叶辰 .2 小时前
ES使用聚合aggregations实战(2025.04.02更新)
大数据·elasticsearch·jenkins
zxsz_com_cn2 小时前
风电行业预测性维护解决方案:AIoT驱动下的风机健康管理革命
大数据·运维·人工智能
Y1nhl4 小时前
Pyspark学习一:概述
数据库·人工智能·深度学习·学习·spark·pyspark·大数据技术
说私域11 小时前
基于开源AI大模型与S2B2C模式的线下服务型门店增长策略研究——以AI智能名片与小程序源码技术为核心
大数据·人工智能·小程序·开源
V_HY1476212 小时前
AI碰一碰发视频获客工具,系统开发逻辑详细解析
大数据·人工智能·新媒体运营·流量运营
遇码12 小时前
单机快速部署开源、免费的分布式任务调度系统——DolphinScheduler
大数据·运维·分布式·开源·定时任务·dolphin·scheduler
一个天蝎座 白勺 程序猿13 小时前
大数据(4.2)Hive核心操作实战指南:表创建、数据加载与分区/分桶设计深度解析
大数据·hive·hadoop