spark_基础入门

基础入门

Spark定义

Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎

统一分析引擎

  • Spark是一款分布式内存计算的统一分析引擎。
  • 其特点就是对任意类型的数据进行自定义计算。
  • Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。
  • Spark的适用面非常广泛,所以被称之为统一的(适用面广)的分析引擎(数据处理)

Spark VS Hadoop

Hadoop Spark
类型 基础平台, 包含计算, 存储, 调度 纯计算工具(分布式)
场景 海量数据批处理(磁盘迭代计算) 海量数据的批处理(内存迭代计算、交互式计算)、海量数据流计算
价格 对机器要求低, 便宜 对内存有要求, 相对较贵
编程范式 Map+Reduce, API 较为底层, 算法适应性差 RDD组成DAG有向无环图, API 较为顶层, 方便使用
数据存储结构 MapReduce中间计算结果在HDFS磁盘上, 延迟大 RDD中间运算结果在内存中 , 延迟小
运行方式 Task以进程方式维护, 任务启动慢 Task以线程方式维护, 任务启动快,可批量创建提高并行能
  • 面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?
  • 答案:Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行单位,但缺点是线程之间会有资源竞争。

线程基本概念

  • 线程是CPU的基本调度单位
  • 一个进程一般包含多个线程, 一个进程下的多个线程共享进程的资源
  • 不同进程之间的线程相互不可见
  • 线程不能独立执行
  • 一个线程可以创建和撤销另外一个线程

Spark特点

速度块

由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍

  • Spark处理数据时,可以将中间处理结果数据存储到内存中
  • Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成

易于使用

Spark 支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言

通用性强

Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,我们可以在一个应用中无缝地使用这些工具库

多种模式运行

Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes上;对于数据源而言,Spark 支持多种途径获取数据。

  • 文件系统:LocalFS、HDFS、Hive、text、parquet、orc、json、csv
  • 数据库 : mysql、Oracle
  • 数据库:HBase、ES、Redis
  • 消息对象:Kafka

Spark框架模块

整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上

  • SparkCore:
    • Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运行的基础。Spark Core以RDD为数据抽象,提供Python、Java、Scala、R语言的API,可以编程进行海量离线数据批处理计算。
  • SparkSQL:
    • 基于SparkCore之上,提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理,SparkSQL本身针对离线计算场景。同时基于SparkSQL,Spark提供了StructuredStreaming模块,可以以SparkSQL为基础,进行数据的流式计算。
  • SparkStreaming:
    • 以SparkCore为基础,提供数据的流式计算功能。
  • SparkMLlib:
    • 以SparkCore为基础,进行机器学习计算,内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。
  • SparkGraphX:
    • 以SparkCore为基础,进行图计算,提供了大量的图计算API,方便用于以分布式计算模式进行图计算。

Spark架构角色

  • 资源管理层面
    • Master:集群资源管理者,整个集群的资源管理和分配
    • Worker:单机资源管理者,负责在单个服务器上提供运行容器,管理当前机器的资源
  • 任务计算层面
    • Driver:单任务管理者,管理Executor的任务执行和任务分解分配, 类似YARN的ApplicationMaster
    • Executor:单任务执行者,Spark的工作任务(Task)都由Executor来负责执行

Spark运行模式

  • 本地模式(单机)
    • 本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境
  • Standalone模式(集群)
    • Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境
  • Hadoop YARN模式(集群)
    • Spark中的各个角色运行在YARN的容器内部,并组成Spark集群环境
  • 模式(容器集群)
    • Spark中的各个角色运行在Kubernetes的容器内部,并组成Spark集群环境
  • 云服务模式(运行在云平台上)

Spark本地模式

本地模式的本质是启动一个JVM Process进程(一个进程里面有多个线程),执行任务Task,Local模式可以限制模拟Spark集群环境的线程数量, 即Local[N] 或 Local[*]

  • Local[N]
    • N代表可以使用N个线程,每个线程拥有一个cpu core。如果不指定N,则默认是1个线程(该线程有1个core)。 通常Cpu有几个Core,就指定几个线程,最大化利用计算能力
  • Local[*]
    • 按照Cpu最多的Cores设置线程数

Local模式角色分布

资源管理:

  • Master:Local进程本身
  • Worker:Local进程本身

任务执行:

  • Driver:Local进程本身
  • Executor:不存在,没有独立的Executor角色, 由Local进程(也就是Driver)内的线程提供计算能力

Local模式Spark运行工具

  • /bin/pyspark
    • 提供一个python解释器环境用来以python代码执行spark程序
  • /bin/spark-sheell
    • 提供一个scala解释器环境用来以scala代码执行spark程序
  • /bin/spark-submit
    • 提交java/scala/python代码到spark中运行

StandAlone模式

Standalone模式是Spark自带的一种集群模式,不同于本地模式启动多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理

  • Master角色以Master进程存在
  • Worker角色以Worker进程存在
  • Driver和Executor运行于Worker进程内, 由Worker提供资源供给它们运行

Standalone进程

  • 主节点Master进程
    • Master角色, 管理整个集群资源,并托管运行各个任务的Driver
  • 从节点Workers
    • Worker角色, 管理每个机器的资源,分配对应的资源来运行Executor(Task)
  • 历史服务器HistoryServer(可选)
    • Spark Application运行完成以后,保存事件日志数据至HDFS,启动HistoryServer可以查看应用运行相关信息

SparkOnYarn模式

  • Master角色由YARN的ResourceManager担任.
  • Worker角色由YARN的NodeManager担任.
  • Driver角色运行在YARN容器内 或 提交任务的客户端进程中
  • Executor运行在YARN提供的容器内

部署方式

  • Cluster模式
    • Driver运行在YARN容器内部, 和ApplicationMaster在同一个容器内
  • Client模式
    • Driver运行在客户端进程中, 例如Driver运行在spark-submit程序的进程中
Cluster模式 Client模式
Driver运行位置 YARN容器内 客户端进程内
通讯效率 低于Cluster模式
日志查看 日志输出在容器内,查看不方便 日志输出在客户端的标准输出流中,方便查看
生产可用 推荐 不推荐
稳定性 稳定 基于客户端进程,受到客户端进程影响

Client模式任务流程

  1. Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster;
  2. 随后ResourceManager分配Container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster的功能相当于一个ExecutorLaucher,只负责向ResourceManager申请Executor内存;
  3. ResourceManager接到ApplicationMaster的资源申请后会分配Container,然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程;
  4. Executor进程启动后会向Driver反向注册,Executor全部注册完成后Driver开始执行main函数;
  5. 之后执行到Action算子时,触发一个Job,并根据宽依赖开始划分Stage,每个Stage生成对应的TaskSet,将Task分发到各个Executor上执行。

Cluster模式任务流程

  1. 任务提交后会和ResourceManager通讯申请启动ApplicationMaster;
  2. 随后ResourceManager分配Container,在合适的NodeManager上启ApplicationMaster,此时的ApplicationMaster就是Driver;
  3. Driver启动后向ResourceManager申请Executor内存,ResourceManager接到ApplicationMaster的资源申请后会分配Container,然后在合适的NodeManager上启动Executor进程;
  4. Executor进程启动后会向Driver反向注册;
  5. Executor全部注册完成后Driver开始执行main函数,之后执行到Action算子时,触发一个job,并根据宽依赖开始划分stage,每个stage生成对应的taskSet,之后将task分发到各个Executor上执行;

Spark程序运行层次结构

-- Application
	-- Job1
		-- Stage1
		-- Stage2
			-- Task1
			-- Task2
	-- Job2
	
Task:被分配到各个 Executor 的单位工作内容,它是 Spark 中的最小执行单位
Stage:Job 的组成单位,一个 Job 会切分成多个 Stage,Stage 彼此之间相互依赖顺序执行,而每个 Stage 是多个 Task 的集合

Spark应用程序架构

Spark Application运行到集群上时,由两部分组成:Driver Program和Executors

  • Driver Program

    • 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行
    • 运行JVM Process,运行程序的MAIN函数,必须创建SparkContext上下文对象
    • 一个SparkApplication仅有一个
  • Executors

    • 相当于一个线程池,运行JVM Process,其中有很多线程,每个线程运行一个Task任务,一个Task任务运行需要1 Core CPU,所以可以认为Executor中线程数就等于CPU Core核数
    • 一个Spark Application可以有多个,可以设置个数和资源信息
  • 非数据处理的部分由Driver工作

  • 数据处理的部分由Executor工作

应用程序阶段

  1. 用户程序创建 SparkContext 时,新创建的 SparkContext 实例会连接到ClusterManager。 Cluster Manager 会根据用户提交时设置的 CPU 和内存等信息为本次提交分配计算资源,启动 Executor;
  2. Driver会将用户程序划分为不同的执行阶段Stage,每个执行阶段Stage由一组完全相同Task组成,这些Task分别作用于待处理数据的不同分区。在阶段划分完成和Task创建后, Driver会向Executor发送 Task;
  3. Executor在接收到Task后,会下载Task的运行时依赖,在准备好Task的执行环境后,会开始执行Task,并且将Task的运行状态汇报给Driver;
  4. Driver会根据收到的Task的运行状态来处理不同的状态更新。 Task分为两种:一种是Shuffle Map Task,它实现数据的重新洗牌,洗牌的结果保存到Executor 所在节点的文件系统中;另外一种是Result Task,它负责生成结果数据;
  5. Driver 会不断地调用Task,将Task发送到Executor执行,在所有的Task 都正确执行或者超过执行次数的限制仍然没有执行成
    功时停止;

*[RDBMS]: Relational Database Management System,关系数据库管理系统
*[NOSQL]: 全称Not Only SQL,泛指非关系型的数据库‌
*[Kubernetes]: (简称K8s)是一个开源的、用于管理云平台中多个主机上的容器化应用的系统

相关推荐
Yvonne9782 小时前
创建三个节点
java·大数据
bug404_4 小时前
分布式大语言模型服务引擎vLLM论文解读
人工智能·分布式·语言模型
OJAC近屿智能5 小时前
苹果新品今日发布,AI手机市场竞争加剧,近屿智能专注AI人才培养
大数据·人工智能·ai·智能手机·aigc·近屿智能
lucky_syq5 小时前
Spark算子:大数据处理的魔法棒
大数据·分布式·spark
昔我往昔7 小时前
项目中分库分表的分布式ID如何生成
分布式
m0_748233648 小时前
【分布式】Hadoop完全分布式的搭建(零基础)
大数据·hadoop·分布式
圣享科技SMARTLIC8 小时前
企业软件合规性管理:构建高效、安全的软件资产生态
大数据·安全·浮动许可证监控·许可证管理·浮动许可证优化·软件资产管理·浮动许可证管理
roman_日积跬步-终至千里8 小时前
【分布式理论14】分布式数据库存储:分表分库、主从复制与数据扩容策略
数据库·分布式
京东零售技术8 小时前
京东广告基于 Apache Doris 的冷热数据分层实践
大数据
D愿你归来仍是少年8 小时前
解决Python升级导致PySpark任务异常方案
大数据·开发语言·python·spark