从0开始学习pyspark--pyspark的核心概念[第0节]

在学习 PySpark时会遇到很多新的关键词,理解这些概念,对我们学习PySpark有极大的帮助,以下是一些PySpark的关键概念及其详细解释:

1. PySpark

PySparkApache Spark的Python API。Spark是一个用于大规模数据处理的开源分布式计算系统,支持内存计算和基于磁盘的数据处理,具有高性能和可扩展性。

2. SparkContext (SC)

SparkContext是所有Spark功能的入口点。它是Spark应用的主控对象,用于连接到集群并创建RDD(Resilient Distributed Datasets)。

3. Resilient Distributed Dataset (RDD)

RDDSpark的核心抽象,是一个不可变的分布式数据集合。RDD支持两种操作:Transformations (如map, filter)和Actions (如count, collect)。

4. DataFrame

DataFrameSpark SQL中的一个分布式数据集合,类似于PandasDataFrameDataFrame有更高层次的抽象,相比于RDD提供了更多优化和更简单的API

5. Spark SQL

Spark SQLSpark中处理结构化数据的组件,允许你使用SQL查询DataFrameRDD。它还支持从多种数据源读取数据,如JSONParquetJDBC等。

6. SparkSession

SparkSession是用于与Spark交互的新的入口点,它整合了SparkContextSQLContextHiveContext的功能。你可以通过SparkSession创建DataFrame和执行SQL查询。

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("example") \
    .getOrCreate()

7. Transformations

Transformations是对RDD的惰性操作(lazy operations),即不会立即计算结果,而是生成一个新的RDD。当需要执行一个Action时,Spark才会开始计算。常见的Transformations包括:

  • map(func): 对RDD中的每个元素应用函数func,并返回一个新的RDD
  • filter(func): 保留RDD中使函数func返回True的元素,返回一个新的RDD
  • flatMap(func): 类似于map,但每个输入元素可以映射到0个或多个输出元素。

8. Actions

Actions是对RDD的操作,会触发计算并返回结果。常见的Actions包括:

  • collect(): 返回RDD中所有元素的列表。
  • count(): 返回RDD中元素的个数。
  • first(): 返回RDD中的第一个元素。

9. Lazy Evaluation

PySpark使用惰性求值(Lazy Evaluation),即Transformations不会立即执行,而是记录下需要进行的操作。当执行一个Action时,Spark会根据需要生成执行计划并优化执行。

10. Spark SQL and DataFrames

Spark SQL支持通过SQL语句查询数据,并且可以与DataFrame API无缝集成。

python 复制代码
df = spark.read.json("example.json")
df.createOrReplaceTempView("example")
result = spark.sql("SELECT * FROM example WHERE age > 21")

11. Spark Streaming

Spark Streaming用于实时处理数据流,支持从多种数据源读取数据,如KafkaFlumeKinesis等。它将实时数据流分成小批次进行处理,并提供类似于RDD的API。

12. Machine Learning Library (MLlib)

MLlibSpark的机器学习库,提供了多种机器学习算法和工具,如分类、回归、聚类、协同过滤等。

13. GraphX

GraphXSpark的图计算库,提供了图算法和图操作的API,用于处理大规模图数据。

14. Spark的集群模式

Spark支持多种集群模式,包括本地模式Standalone模式YARN模式Mesos模式。不同的模式适用于不同的应用场景和集群配置。

相关推荐
2301_764441331 天前
Python构建输入法应用
开发语言·python·算法
love530love1 天前
【笔记】ComfUI RIFEInterpolation 节点缺失问题(cupy CUDA 安装)解决方案
人工智能·windows·笔记·python·插件·comfyui
石像鬼₧魂石1 天前
Netcat,网络瑞士军刀(新手学习备用)
学习
青瓷程序设计1 天前
昆虫识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
东哥说-MES|从入门到精通1 天前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划
秋邱1 天前
智启未来:AGI 教育融合 × 跨平台联盟 × 个性化空间,重构教育 AI 新范式开篇:一场 “教育 ×AI” 的范式革命
人工智能·python·重构·推荐算法·agi
todoitbo1 天前
基于 DevUI MateChat 搭建前端编程学习智能助手:从痛点到解决方案
前端·学习·ai·状态模式·devui·matechat
爱吃泡芙的小白白1 天前
vscode、anaconda、git、python配置安装(自用)
ide·git·vscode·python·anaconda·学习记录
谷隐凡二1 天前
Kubernetes主从架构简单解析:基于Python的模拟实现
python·架构·kubernetes
老歌老听老掉牙1 天前
Matplotlib Pyplot 数据可视化完全指南
python·信息可视化·matplotlib