Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
C语言魔术师6 分钟前
【小游戏篇】三子棋游戏
前端·算法·游戏
无须logic ᭄6 分钟前
CrypTen项目实践
python·机器学习·密码学·同态加密
小周不摆烂11 分钟前
探索JavaScript前端开发:开启交互之门的神奇钥匙(二)
javascript
Channing Lewis19 分钟前
flask常见问答题
后端·python·flask
Channing Lewis21 分钟前
如何保护 Flask API 的安全性?
后端·python·flask
水兵没月1 小时前
钉钉群机器人设置——python版本
python·机器人·钉钉
匹马夕阳1 小时前
Vue 3中导航守卫(Navigation Guard)结合Axios实现token认证机制
前端·javascript·vue.js
你熬夜了吗?1 小时前
日历热力图,月度数据可视化图表(日活跃图、格子图)vue组件
前端·vue.js·信息可视化
我想学LINUX2 小时前
【2024年华为OD机试】 (A卷,100分)- 微服务的集成测试(JavaScript&Java & Python&C/C++)
java·c语言·javascript·python·华为od·微服务·集成测试
screct_demo2 小时前
詳細講一下在RN(ReactNative)中,6個比較常用的組件以及詳細的用法
javascript·react native·react.js