Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
海阔天空_20136 分钟前
Python pyautogui库:自动化操作的强大工具
运维·开发语言·python·青少年编程·自动化
零意@14 分钟前
ubuntu切换不同版本的python
windows·python·ubuntu
小远yyds18 分钟前
前端Web用户 token 持久化
开发语言·前端·javascript·vue.js
思忖小下25 分钟前
Python基础学习_01
python
q567315231 小时前
在 Bash 中获取 Python 模块变量列
开发语言·python·bash
是萝卜干呀1 小时前
Backend - Python 爬取网页数据并保存在Excel文件中
python·excel·table·xlwt·爬取网页数据
代码欢乐豆1 小时前
数据采集之selenium模拟登录
python·selenium·测试工具
阿伟来咯~1 小时前
记录学习react的一些内容
javascript·学习·react.js
吕彬-前端1 小时前
使用vite+react+ts+Ant Design开发后台管理项目(五)
前端·javascript·react.js
学前端的小朱1 小时前
Redux的简介及其在React中的应用
前端·javascript·react.js·redux·store