Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

复制代码
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

复制代码
"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
阡之尘埃2 分钟前
Python数据分析案例73——基于多种异常值监测算法探查内幕交易信息
人工智能·python·机器学习·数据分析·异常检测·无监督学习
小墨宝23 分钟前
js 生成pdf 并上传文件
前端·javascript·pdf
HED38 分钟前
用扣子快速手撸人生中第一个AI智能应用!
前端·人工智能
DN金猿42 分钟前
使用npm install或cnpm install报错解决
前端·npm·node.js
丘山子42 分钟前
一些鲜为人知的 IP 地址怪异写法
前端·后端·tcp/ip
蓝莓味柯基1 小时前
Python3:文件操作
python
志存高远661 小时前
Kotlin 的 suspend 关键字
前端
www_pp_1 小时前
# 构建词汇表:自然语言处理中的关键步骤
前端·javascript·自然语言处理·easyui
xiaoh_71 小时前
解决视频处理中的 HEVC 解码错误:Could not find ref with POC xxx【已解决】
python·ffmpeg·音视频
YuShiYue1 小时前
pnpm monoreop 打包时 node_modules 内部包 typescript 不能推导出类型报错
javascript·vue.js·typescript·pnpm