【Python进阶——分布式计算框架pyspark】

Apache Spark是用于大规模数据处理的统一分析引擎

简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据,Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。

而Python语言,则是Spark重点支持的方向。

Spark对Python语言的支持,重点体现在,Python第三方库PySpark之上。

PySpark是由Spark官方开发的Python语言第三方库。可以使用pip程序快速的安装PySpark并像其它三方库那样直接使用。

python 复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

用pyspark写出来的库,既可以在电脑上简单运行作数据分析处理,又可以迁移到spark集群进行分布式集群计算

学pyspark的目的就是衔接大数据方向,学习路线:

构建PySpark执行环境入口对象

想要使用PySpark库完成数据处理,首先需要构建一个执行环境入口对象。

PySpark的执行环境唯一入口对象是:类SparkContext的类对象

python 复制代码
# 导包
from pyspark import SparkConf,SparkContext
#创建SparkConf类对象:local表示本机(单机)运行,如果想用分布式集群则还要改参数,此处不涉及
conf = SparkConf().setMaster("1ocal[*]").\
	setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext类对象
sc=SparkContext(conf=conf)
#打印PySpark的运行版本
print(sc.version)
#停止SparkContext对象的运行(停止PySpark程序)
sc.stop()

在pycharm中使用PySpark 出现Java gateway process exited before sending its port number.
(最新最全)pyspark报错Exception: Java gateway process exited before sending its port number





相关推荐
愚戏师1 分钟前
Python3 多线程
linux·运维·服务器·python
子午17 分钟前
【食物识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习
曾经的三心草18 分钟前
基于正倒排索引的Java文档搜索引擎2-实现Index类
java·python·搜索引擎
疏狂难除26 分钟前
尝试rust与python的混合编程(二)
数据库·python·rust
子午2 小时前
【蘑菇识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习
Mr_Xuhhh2 小时前
pytest -- 指定⽤例执⾏顺序
开发语言·python·pytest
tokepson2 小时前
关于python更换永久镜像源
python·技术·记录
F_D_Z2 小时前
【解决办法】网络训练报错AttributeError: module ‘jax.core‘ has no attribute ‘Shape‘.
开发语言·python·jax
前端伪大叔2 小时前
第29篇:99% 的量化新手死在挂单上:Freqtrade 隐藏技能揭秘
后端·python·github
韩曙亮3 小时前
【人工智能】AI 人工智能 技术 学习路径分析 ① ( Python语言 -> 微积分 / 概率论 / 线性代数 -> 机器学习 )
人工智能·python·学习·数学·机器学习·ai·微积分