Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

复制代码
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

复制代码
"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
绝世唐门三哥6 分钟前
React---数组浅拷贝之slice的使用
前端·reactjs
傅里叶11 分钟前
Flutter开发的app,实现Google 登录
前端·flutter
Sunshine for you12 分钟前
如何用FastAPI构建高性能的现代API
jvm·数据库·python
阿贵---16 分钟前
Python Web爬虫入门:使用Requests和BeautifulSoup
jvm·数据库·python
天理小学渣19 分钟前
JavaScript_基础教程_自学笔记
开发语言·javascript·笔记
angerdream25 分钟前
最新版vue3+TypeScript开发入门到实战教程之生命周期函数
javascript·vue.js
胖橘28 分钟前
适用于Vue3的高集成度文件预览组件,支持多种类型的文件
前端·vue.js·开源
我叫黑大帅29 分钟前
🚀 JS 最常用的性能优化 防抖和节流
前端·javascript·面试
啊丫丫31 分钟前
【深入浅出地学习Vue】——vue2
前端·vue.js
求知若饥31 分钟前
webpage-channel 让不同页面通信像组件通信一样简便
前端·typescript·node.js