Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

复制代码
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

复制代码
"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
得物技术3 分钟前
前端日志回捞系统的性能优化实践|得物技术
前端·javascript·性能优化
ZKshun5 分钟前
[ 前端JavaScript的事件流机制 ] - 事件捕获、冒泡及委托原理
javascript
蓝纹绿茶6 分钟前
Python程序使用了Ffmpeg,结束程序后,文件夹中仍然生成音频、视频文件
python·ubuntu·ffmpeg·音视频
陶甜也6 分钟前
threeJS 实现开花的效果
前端·vue·blender·threejs
用户7678797737327 分钟前
后端转全栈之Next.js 路由系统App Router
前端·next.js
OEC小胖胖8 分钟前
Next.js数据获取入门:`getStaticProps` 与 `getServerSideProps`
前端·前端框架·web·next.js
mahuifa13 分钟前
OpenCV 开发 -- 图像基本处理
人工智能·python·opencv·计算机视觉
薛定谔的算法18 分钟前
JavaScript栈的实现与应用:从基础到实战
前端·javascript·算法
深圳外环高速22 分钟前
React 受控组件如何模拟用户输入
前端·react.js