Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

复制代码
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

复制代码
"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
黑客思维者3 分钟前
智能配电系统用户敏感数据脱敏详细设计:从静态遮盖到动态策略
c++·python·嵌入式系统·数据脱敏·智能配电系统
陈鋆3 分钟前
Langchain-Chatchat[四、RAG对话流程代码解析]
开发语言·python·langchain
小旭@7 分钟前
vue3官方文档巩固
前端·javascript·vue.js
ServBay11 分钟前
Django 6.0 发布,新增原生任务队列与 CSP 支持
后端·python·django
努力往上爬de蜗牛14 分钟前
electron 打包
前端·javascript·electron
β添砖java15 分钟前
python第一阶段第九章异常、模块、包
开发语言·python
2501_9419820518 分钟前
企业微信Python SDK:高效群发消息实战
开发语言·python·企业微信
美自坚韧18 分钟前
qiankun微前端
前端·vue.js
高桥留24 分钟前
可编辑的span
前端·javascript·css
GISer_Jing26 分钟前
React Native 2025:从零到精通实战指南
javascript·react native·react.js