python与PySpark

1、Spark是Apache基金会 下的顶级开源项目,用于对海量数据经行大规模的分布式技术;

2、P有Spark是Spark的python实现,用于python中完成Spark的任务开发;

3、安装:可通过cmd终端进行安装

复制代码
pip install PySpark

也可以通过国内镜像网站,

复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

3、执行一个简答的程序进行验证

复制代码
# 导入 PySpark 相关包
from pyspark import SparkConf, SparkContext


conf =SparkConf().setMaster("local[*]").setAppName("test_spark_app") # 创建SparkConf对象
 # 基于SparkConf对象创建sparkcontext对象,
sc=SparkContext(conf=conf)

#打印pyspark的版本
print(sc.version)
sc.stop()

如果出现乱码,可能是jdk的问题,或者是编码问题

相关推荐
十八旬8 分钟前
快速安装ClaudeCode完整指南
开发语言·windows·python·claude
前进的李工24 分钟前
EXPLAIN输出格式全解析:JSON、TREE与可视化
开发语言·数据库·mysql·性能优化·explain
dFObBIMmai1 小时前
如何在 CSS 中实现元素的绝对定位,使其不受窗口尺寸变化影响
jvm·数据库·python
Byron Loong1 小时前
【c++】为什么有了dll和.h,还需要包含lib
java·开发语言·c++
WL_Aurora1 小时前
Python 算法基础篇之集合
python·算法
独隅1 小时前
CodeX + Visual Studio Code 联动的全面指南
开发语言·php
坚果派·白晓明1 小时前
【鸿蒙PC三方库移植适配框架解读系列】第一篇:Lycium C/C++ 三方库适配 — 概述与环境配置
c语言·开发语言·c++·harmonyos·开源鸿蒙·三方库·c/c++三方库
头歌实践平台2 小时前
招聘大数据可视化
大数据·python
爱吃小白兔的猫2 小时前
LPA算法详解:一种近线性时间的图社区发现方法
开发语言·php