10-用PySpark建立第一个Spark RDD

目录


PySpark实战笔记系列第一篇


RDD概念

Apache Spark的核心组件的基础是RDD。所谓的RDD,即弹性分布式数据集(Resiliennt Distributed Datasets),基于RDD可以实现Apache Spark各个组件在多个计算机组成的集群中进行无缝集成,从而能够在一个应用程序中完成海量数据处理。

RDD特点

  • 只读不能修改 :只能通过转换操作生成一个新的RDD。
  • 分布式存储:一个RDD通过分区可以分布在多台机器上进行并行数据处理。
  • 内存计算:可以将全部或部分数据缓存在内存中,且可在多次计算过程中重用。
  • 具有弹性:在计算过程中,当内存不足时,可以将一部分数据落到磁盘上处理

建立RDD的方式

  • 用parallelize方法 建立RDD:这种方式非常简单,主要用于进行练习或者测试。
  • 用range方法 建立RDD:这种方式和parallelize方法类似,一般来说主要用于进行测试。
  • 使用textFile方法 建立RDD:这种方式一般用于在本地临时性地处理一些存储了大量数据的文件。它依赖本地文件系统,因此可以不需要Hadoop环境。
  • 使用HDFS 建立RDD:这种方式使用HDFS文件建立RDD,需要依赖Hadoop集群环境,它应该是最常用的一种生产环境下的数据处理方式。它可以针对HDFS上存储的海量数据,进行离线批处理操作。

不同工具建立RDD的方式

使用PySpark Shell(交互环境)建立RDD

在安装完成Spark环境后,就具备了Shell这款工具。其中,Spark Shell是针对Scala语言的,而PySpark Shell则是针对Python语言的。

使用PySpark Shell工具的方式,在命令行输入如下命令:pyspark

PySpark Shell默认会自动创建sc对象和spark对象,因此可以在交互环境中直接进行调用,而无须手动创建。这里,sc对象是SparkContext的实例,而spark对象是SparkSession的实例。

使用VSCode编程建立RDD

在VSCode中以编程方式需要手动创建SparkContext实例。

  • 首先需要用from pyspark import SparkConf, SparkContext导入SparkConf和SparkContext。
  • conf=SparkConf().setAppName("WordCount").setMaster("local[ **]")**创建了一个SparkConf实例,其中用setAppName设置了本次程序的名称,用setMaster设置了Spark Master的方式为local[]。
  • **sc=SparkContext(conf=conf)**创建SparkContext实例sc,这与PySparkShell默认创建的sc对象类似。
  • SparkContext不能一次运行多个,否则会报ValueError: Cannot run multipleSparkContexts at once; existing SparkContext的错误。因此需要用sc.stop()命令关闭SparkContext实例对象。

需要用pip3 install findspark命令安装findspark,否则可能会提示无法找到pyspark模块的错误:ModuleNotFoundError: No module named 'pyspark'。

示例界面:

使用Jupyter Notebook建立RDD

编码方式类似VS Code,不过它的好处是

  • 可以对多个代码以文件的形式进行组织,
  • 可以用于编写文档。
  • 更高级的是可以显示图形和运算结果。
  • 因此使用这种基于Web的部署方式,可以让多个客户端同时使用,且可共享代码示例,真正做到图文并茂地进行编程。

总结

** 1.sc对象的两种创建方式:**

python 复制代码
"""
方式一:通过SparkConf创建
"""
from pyspark import SparkConf,SparkContext
# 创建SparkContext,即sc对象
conf = SparkConf().setAppName("Demo")\
				  .setMaster("local[*]")
sc = SparkContext(conf=conf)
python 复制代码
"""
方式二:通过SparkSession创建
"""
from pyspark.sql import SparkSession
spark = SparkSession.builder \
					.master("local[*]") \
					.appName("Demo")	\
					.getOrCreate();
# 创建SparkContext,即sc对象
sc = spark.sparkContext

2.完整的常用pyspark编程开头示例

根据上述两种sc的创建方式,对应的常用的编程开头方式即在上述样例的开头,加上如下代码:

python 复制代码
import findspark
findspark.init()

参考资料:《Python大数据处理库PySpark实战》

相关推荐
北京软秦科技有限公司15 小时前
AI审核如何助力合规取证?IACheck打造环境检测报告电子存证与法律风险防控新路径
大数据·人工智能
Kethy__16 小时前
计算机中级-数据库系统工程师-计算机体系结构与存储系统
大数据·数据库·数据库系统工程师·计算机中级
云原生指北17 小时前
命令行四件套:fd-rg-fzf-bat
java·大数据·elasticsearch
Datacarts18 小时前
AI大模型时代:微店商品数据API如何重构反向海淘决策
大数据·人工智能·重构
ws20190719 小时前
技术交流与商贸融合,2026广州汽车测试测量展释放产业协同新动能
大数据·人工智能·科技·汽车
运维老曾20 小时前
Flink 自定义数据源开发流程
大数据·flink
BioRunYiXue21 小时前
Nature Methods:CellVoyager 自主 AI 智能体开启生物数据分析新时代
大数据·开发语言·前端·javascript·人工智能·数据挖掘·数据分析
TDengine (老段)1 天前
TDengine IDMP 工业数据建模 —— 数据标准化
大数据·数据库·物联网·ai·时序数据库·tdengine·涛思数据
AI先驱体验官1 天前
AI智能体赛道新机遇:2026机会与挑战深度解析
大数据·人工智能·深度学习·重构·aigc
被摘下的星星1 天前
Hadoop伪分布式集群搭建实验原理概要
大数据·hadoop·分布式