python与PySpark

1、Spark是Apache基金会 下的顶级开源项目,用于对海量数据经行大规模的分布式技术;

2、P有Spark是Spark的python实现,用于python中完成Spark的任务开发;

3、安装:可通过cmd终端进行安装

复制代码
pip install PySpark

也可以通过国内镜像网站,

复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

3、执行一个简答的程序进行验证

复制代码
# 导入 PySpark 相关包
from pyspark import SparkConf, SparkContext


conf =SparkConf().setMaster("local[*]").setAppName("test_spark_app") # 创建SparkConf对象
 # 基于SparkConf对象创建sparkcontext对象,
sc=SparkContext(conf=conf)

#打印pyspark的版本
print(sc.version)
sc.stop()

如果出现乱码,可能是jdk的问题,或者是编码问题

相关推荐
小小de风呀3 分钟前
de风——【从零开始学C++】(五):内存管理
开发语言·c++
ooseabiscuit8 分钟前
Laravel6.x核心优化与特性全解析
android·开发语言·javascript
折哥的程序人生 · 物流技术专研9 分钟前
Java面试85题图解版(一):基础核心篇
java·开发语言·后端·面试
AllData公司负责人25 分钟前
通过Postgresql同步到Doris,全视角演示AllData数据中台核心功能效果,涵盖:数据入湖仓,数据同步,数据处理,数据服务,BI可视化驾驶舱
java·大数据·数据库·数据仓库·人工智能·python·postgresql
Hello.Reader1 小时前
算法基础(十)——分治思想把大问题拆成小问题
java·开发语言·算法
一只大袋鼠1 小时前
JavaWeb四种文件上传方式(下篇)
java·开发语言·springmvc·javaweb
TE-茶叶蛋1 小时前
深入研究 yudao-framework 模块:Java 编程能力提升指南
java·开发语言
Flittly1 小时前
【LangGraph新手村系列】(5)时间旅行:浏览历史、分叉时间线与修改过去
python·langchain
逻辑驱动的ken2 小时前
Java高频考点场景题24
java·开发语言·面试·职场和发展·求职招聘
兔小盈2 小时前
多线程-(五)线程安全之内存可见性
java·开发语言·多线程