python与PySpark

1、Spark是Apache基金会 下的顶级开源项目,用于对海量数据经行大规模的分布式技术;

2、P有Spark是Spark的python实现,用于python中完成Spark的任务开发;

3、安装:可通过cmd终端进行安装

复制代码
pip install PySpark

也可以通过国内镜像网站,

复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

3、执行一个简答的程序进行验证

复制代码
# 导入 PySpark 相关包
from pyspark import SparkConf, SparkContext


conf =SparkConf().setMaster("local[*]").setAppName("test_spark_app") # 创建SparkConf对象
 # 基于SparkConf对象创建sparkcontext对象,
sc=SparkContext(conf=conf)

#打印pyspark的版本
print(sc.version)
sc.stop()

如果出现乱码,可能是jdk的问题,或者是编码问题

相关推荐
AI_56781 小时前
Selenium+Python可通过 元素定位→操作模拟→断言验证 三步实现Web自动化测试
服务器·人工智能·python
蒜香拿铁2 小时前
【第三章】python算数运算符
python
码农水水2 小时前
国家电网Java面试被问:TCP的BBR拥塞控制算法原理
java·开发语言·网络·分布式·面试·wpf
浮尘笔记2 小时前
Go语言临时对象池:sync.Pool的原理与使用
开发语言·后端·golang
咕噜咕噜啦啦3 小时前
Java期末习题速通
java·开发语言
BHXDML3 小时前
第七章:类与对象(c++)
开发语言·c++
52Hz1183 小时前
力扣73.矩阵置零、54.螺旋矩阵、48.旋转图像
python·算法·leetcode·矩阵
梦梦代码精3 小时前
BuildingAI vs Dify vs 扣子:三大开源智能体平台架构风格对比
开发语言·前端·数据库·后端·架构·开源·推荐算法
weixin_462446234 小时前
Python 使用 openpyxl 从 URL 读取 Excel 并获取 Sheet 及单元格样式信息
python·excel·openpyxl
又见野草4 小时前
C++类和对象(中)
开发语言·c++