Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

复制代码
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

复制代码
"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
落雪小轩韩3 分钟前
网格布局 CSS Grid
前端·css
parade岁月6 分钟前
Vue 3 父子组件模板引用的时序陷阱与解决方案
前端
xianxin_10 分钟前
CSS Outline(轮廓)
前端
moyu8411 分钟前
遮罩层设计与实现指南
前端
Sammyyyyy16 分钟前
2025年,Javascript后端应该用 Bun、Node.js 还是 Deno?
开发语言·javascript·node.js
Pedantic20 分钟前
用 SwiftUI 打造一个 iOS「设置」界面
前端
站大爷IP23 分钟前
Python与MySQL:从基础操作到实战技巧的完整指南
python
timeweaver26 分钟前
深度解析 Nginx 前端 location 配置与优先级:你真的用对了吗?
前端·nginx·前端工程化
老歌老听老掉牙27 分钟前
SymPy 矩阵到 NumPy 数组的全面转换指南
python·线性代数·矩阵·numpy·sympy
鲸落落丶27 分钟前
网络通信---Axios
前端