从0开始学习pyspark--pyspark的核心概念[第0节]

在学习 PySpark时会遇到很多新的关键词,理解这些概念,对我们学习PySpark有极大的帮助,以下是一些PySpark的关键概念及其详细解释：

PySpark是Apache Spark的Python API。Spark是一个用于大规模数据处理的开源分布式计算系统，支持内存计算和基于磁盘的数据处理，具有高性能和可扩展性。

SparkContext是所有Spark功能的入口点。它是Spark应用的主控对象，用于连接到集群并创建RDD（Resilient Distributed Datasets）。

RDD是Spark的核心抽象，是一个不可变的分布式数据集合。RDD支持两种操作：Transformations （如map, filter）和Actions （如count, collect）。

DataFrame是Spark SQL中的一个分布式数据集合，类似于Pandas的DataFrame。DataFrame有更高层次的抽象，相比于RDD提供了更多优化和更简单的API。

Spark SQL是Spark中处理结构化数据的组件，允许你使用SQL查询DataFrame和RDD。它还支持从多种数据源读取数据，如JSON、Parquet、JDBC等。

SparkSession是用于与Spark交互的新的入口点，它整合了SparkContext、SQLContext、HiveContext的功能。你可以通过SparkSession创建DataFrame和执行SQL查询。

python 复制代码

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("example") \
    .getOrCreate()

Transformations是对RDD的惰性操作（lazy operations），即不会立即计算结果，而是生成一个新的RDD。当需要执行一个Action时，Spark才会开始计算。常见的Transformations包括：

Actions是对RDD的操作，会触发计算并返回结果。常见的Actions包括：

PySpark使用惰性求值（Lazy Evaluation），即Transformations不会立即执行，而是记录下需要进行的操作。当执行一个Action时，Spark会根据需要生成执行计划并优化执行。

Spark SQL支持通过SQL语句查询数据，并且可以与DataFrame API无缝集成。

python 复制代码

df = spark.read.json("example.json")
df.createOrReplaceTempView("example")
result = spark.sql("SELECT * FROM example WHERE age > 21")

Spark Streaming用于实时处理数据流，支持从多种数据源读取数据，如Kafka、Flume、Kinesis等。它将实时数据流分成小批次进行处理，并提供类似于RDD的API。

MLlib是Spark的机器学习库，提供了多种机器学习算法和工具，如分类、回归、聚类、协同过滤等。

GraphX是Spark的图计算库，提供了图算法和图操作的API，用于处理大规模图数据。

Spark支持多种集群模式，包括本地模式、Standalone模式、YARN模式和Mesos模式。不同的模式适用于不同的应用场景和集群配置。