spark（一） - 技术栈

本节课围绕Spark Core展开深入学习，了解了Spark的运行架构、核心组件、核心概念以及提交流程，明晰其整体运行机制与各部分协作逻辑。重点聚焦于两个核心组件；对RDD相关概念进行了细致学习，包括其核心属性、执行原理、序列化方式、依赖关系、持久化操作、分区器的运用，以及文件读取与保存等内容。

代码

词频统计

复制代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    // 创建 Spark 运行配置对象
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
    // 创建 Spark 上下文环境对象（连接对象）
    val sc : SparkContext = new SparkContext(sparkConf)
    // 读取文件数据
    val fileRDD: RDD[String] = sc.
      textFile("D:\\school\\workspace\\workspace-IJ\\Spark\\Spark-core\\input\\word.txt")
    // 将文件中的数据进行分词
    val wordRDD: RDD[String] = fileRDD.flatMap( _.split(" ") )
    // 转换数据结构 word => (word, 1)
    val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_,1))
    // 将转换结构后的数据按照相同的单词进行分组聚合
    val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_+_)
    // 将数据聚合结果采集到内存中
    val word2Count: Array[(String, Int)] = word2CountRDD.collect()
    // 打印结果
    word2Count.foreach(println)
    //关闭 Spark 连接
    sc.stop()

  }
}

也可以配置日志文件：

执行过程中，会产生大量的执行日志，如果为了能够更好的查看程序的执行结果，可以在项

目的 resources 目录中创建 log4j.properties 文件，并添加日志配置信息

重新运行：

Spark Core

Spark运行架构

Spark Core 是整个 Apache Spark 框架的基础核心部分，它为上层的各类应用（如 Spark SQL、Spark Streaming 等）提供了通用的分布式计算功能以及数据处理能力

核心组件

Driver：Spark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际代码的执行工作。

Executor：Spark Executor 是集群中工作节点（Worker）中的一个 JVM 进程，负责在 Spark 作业 中运行具体任务（ Task），任务彼此之间相互独立。

Master & Worker

ApplicationMaster

核心概念

Executor 与 Core

并行度（Parallelism）

有向无环图（DAG）

提交流程

所谓的提交流程，其实就是开发人员根据需求写的应用程序通过 Spark 客户端提交给 Spark 运行环境执行计算的流程。在不同的部署环境中，这个提交过程基本相同，但是又有细微的区别，这里不进行详细的比较，但是因为国内工作中，将 Spark 引用部署到Yarn 环境中会更多一些，所以这里提到的提交流程是基于 Yarn 环境的。