【Python进阶——分布式计算框架pyspark】

Apache Spark是用于大规模数据处理的统一分析引擎

简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据,Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。

而Python语言,则是Spark重点支持的方向。

Spark对Python语言的支持,重点体现在,Python第三方库PySpark之上。

PySpark是由Spark官方开发的Python语言第三方库。可以使用pip程序快速的安装PySpark并像其它三方库那样直接使用。

python 复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

用pyspark写出来的库,既可以在电脑上简单运行作数据分析处理,又可以迁移到spark集群进行分布式集群计算

学pyspark的目的就是衔接大数据方向,学习路线:

构建PySpark执行环境入口对象

想要使用PySpark库完成数据处理,首先需要构建一个执行环境入口对象。

PySpark的执行环境唯一入口对象是:类SparkContext的类对象

python 复制代码
# 导包
from pyspark import SparkConf,SparkContext
#创建SparkConf类对象:local表示本机(单机)运行,如果想用分布式集群则还要改参数,此处不涉及
conf = SparkConf().setMaster("1ocal[*]").\
	setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext类对象
sc=SparkContext(conf=conf)
#打印PySpark的运行版本
print(sc.version)
#停止SparkContext对象的运行(停止PySpark程序)
sc.stop()

在pycharm中使用PySpark 出现Java gateway process exited before sending its port number.
(最新最全)pyspark报错Exception: Java gateway process exited before sending its port number





相关推荐
南极星10053 小时前
我的创作纪念日--128天
java·python·opencv·职场和发展
码界筑梦坊3 小时前
327-基于Django的兰州空气质量大数据可视化分析系统
python·信息可视化·数据分析·django·毕业设计·数据可视化
Highcharts.js3 小时前
如何使用Highcharts SVG渲染器?
开发语言·javascript·python·svg·highcharts·渲染器
啊阿狸不会拉杆3 小时前
《机器学习导论》第 7 章-聚类
数据结构·人工智能·python·算法·机器学习·数据挖掘·聚类
摇滚侠3 小时前
Java,举例说明,函数式接口,函数式接口实现类,通过匿名内部类实现函数式接口,通过 Lambda 表达式实现函数式接口,演变的过程
java·开发语言·python
禹凕3 小时前
Python编程——进阶知识(面向对象编程OOP)
开发语言·python
一晌小贪欢3 小时前
深入理解 Python HTTP 请求:从基础到高级实战指南
开发语言·网络·python·网络协议·http
七牛云行业应用3 小时前
1M上下文腐烂?实测Opus 4.6 vs GPT-5.3及MoA降本架构源码
人工智能·python·llm·架构设计·gpt-5·claude-opus
Java后端的Ai之路8 小时前
【Python 教程15】-Python和Web
python
冬奇Lab10 小时前
一天一个开源项目(第15篇):MapToPoster - 用代码将城市地图转换为精美的海报设计
python·开源