python与PySpark

1、Spark是Apache基金会 下的顶级开源项目,用于对海量数据经行大规模的分布式技术;

2、P有Spark是Spark的python实现,用于python中完成Spark的任务开发;

3、安装:可通过cmd终端进行安装

复制代码
pip install PySpark

也可以通过国内镜像网站,

复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

3、执行一个简答的程序进行验证

复制代码
# 导入 PySpark 相关包
from pyspark import SparkConf, SparkContext


conf =SparkConf().setMaster("local[*]").setAppName("test_spark_app") # 创建SparkConf对象
 # 基于SparkConf对象创建sparkcontext对象,
sc=SparkContext(conf=conf)

#打印pyspark的版本
print(sc.version)
sc.stop()

如果出现乱码,可能是jdk的问题,或者是编码问题

相关推荐
程序员龙叔9 小时前
编写高质量 Skill 系列 -- 如何设计需求分析与用例生成的 SKILL
自动化测试·软件测试·python·软件测试工程师·接口测试·性能测试·skill·ai测试
用户83562907805112 小时前
使用 Python 操作 Word 内容控件
后端·python
LDR00612 小时前
Type-C 快充全面升级!LDR6601 赋能个人护理便携电机,重塑剃须刀 / 理发器新体验
c语言·开发语言
雪碧聊技术12 小时前
Tree.js是什么?一文讲透
开发语言·javascript·ecmascript
码云数智-园园12 小时前
C++20 Modules 模块详解
java·开发语言·spring
swordbob13 小时前
NIO的channel中什么是 fd(File Descriptor,文件描述符)
java·开发语言·nio
源分享13 小时前
Java线程同步的多种实现方法(非常详细)
java·开发语言·jvm
Luminous.13 小时前
C语言--day30
c语言·开发语言
码云骑士14 小时前
32-慢查询排查全流程(下)-索引优化实战与最左前缀原则
python