*Spark简介

[引入 Spark](#引入 Spark)

[Spark 概念](#Spark 概念)

在 Spark 出现之前，大数据处理领域的主流工具是 Hadoop MapReduce，但 MapReduce 存在明显短板：

为了解决上述问题，加州大学伯克利分校 AMP 实验室于 2010 年开发了 Spark，2013 年捐赠给 Apache 基金会并成为顶级项目。Spark 以内存计算为核心，大幅提升了大数据处理效率，同时扩展了编程模型和应用场景，逐渐成为大数据处理生态的引擎。

Apache Spark 是一款快速、通用、可扩展的大数据分析计算引擎，它支持批量处理、交互式查询、实时流处理、机器学习和图计算等多种场景，它基于内存的分布式计算，减少了磁盘 I/O 开销。

Spark 采用主从架构（Master-Slave 架构），分为集群层面和应用层面两个维度，组件：

负责资源的分配与管理，支持三种集群管理器：

每个 Spark 应用对应一个独立的执行环境，组件：

（1）Driver Program（驱动程序）

作用：作为 Spark 应用的入口，负责编写业务逻辑（如创建 SparkContext、定义 RDD 转换和行动操作）、生成 DAG（有向无环图）、将 Job 拆分为 Stage 并调度 Task 到 Executor；
部署：可以部署在客户端（Client 模式）或集群节点（Cluster 模式），生产环境常用 Cluster 模式。

（2）Executor（执行器）

作用：运行在集群从节点上的进程，负责执行 Task 并存储中间结果（内存或磁盘）；
特性：每个应用对应一组独立的 Executor，Executor 进程一旦启动，会一直运行直到应用结束，避免重复创建开销；每个 Executor 包含多个 Task Slot（任务插槽），Slot 是 Spark 的最小资源单位，对应一个 CPU 核心。

（3）SparkContext（SC）

作用：Spark 应用的上下文对象，负责与集群管理器通信、申请资源、创建 RDD、调度任务，是连接 Spark 应用与集群的桥梁；
注意：在 Spark 2.0 + 中，推出了SparkSession，封装了SparkContext、SQLContext等多个上下文，成为新一代编程入口。

（4）DAG Scheduler（DAG 调度器）

作用：将 Driver 生成的 DAG 拆分为多个 Stage（以宽依赖 / Shuffle 为拆分边界），并确定 Stage 的执行顺序，将每个 Stage 封装为 TaskSet 提交给 Task Scheduler。

（5）Task Scheduler（任务调度器）

作用：接收 DAG Scheduler 提交的 TaskSet，负责将 Task 分配到 Executor 的 Task Slot 中执行，并处理 Task 失败重试逻辑。

速度快：基于内存计算，比 MapReduce 快 10-100 倍，即使是磁盘计算场景，也通过优化的 Shuffle 机制比 MapReduce 更快；
通用性强：支持多种计算场景，一套 API 即可实现批处理、流处理、SQL 查询、机器学习、图计算，无需切换不同工具；
易用性高：支持 Scala、Java、Python、R 等多种编程语言，提供丰富的高阶 API（如 map、reduce、filter 等），降低分布式编程门槛；
可扩展性好：支持横向扩展，集群节点可轻松扩展至数千个，支持多种集群管理模式，适配不同部署环境；
兼容性强：无缝集成 Hadoop 生态（可读取 HDFS、Hive、HBase 等数据源），支持第三方存储系统，迁移成本低。

Spark 不仅是一个计算引擎，还构建了完整的生态体系：

Spark Core：核心模块，提供 RDD、任务调度、内存管理等基础功能，是其他组件的依赖基础；
Spark SQL：结构化查询模块，支持 SQL 查询和 DataFrame/Dataset API，可对接 Hive、MySQL 等数据源，实现结构化数据处理；
Spark Streaming：准实时流处理模块，基于微批处理模型（将流数据切分为小批次进行处理），支持处理 Kafka、Flume 等数据源的实时数据；
Structured Streaming：Spark 2.0 + 推出的结构化流处理模块，基于 DataFrame/Dataset API，支持事件时间处理、状态管理，更接近真正的流处理；
MLlib：机器学习库，提供常用的机器学习算法（分类、回归、聚类等）和工具（特征工程、模型评估），支持分布式机器学习训练；
GraphX：图计算库，用于处理图结构数据（如社交网络、知识图谱），提供图算法（如 PageRank、最短路径）。