Python+PySpark数据输入

RDD是PySpark中数据计算的载体,提供数据的存储,计算的方法。

获取方法:1、通过SparkContext的parallelize成员方法,将python数据容器转换为RDD对象。

复制代码
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
#通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1=sc.parallelize([1,2,3,4,5]) # list类型
rdd2=sc.parallelize((1,2,3,4,5)) # 元组
rdd3=sc.parallelize("123456")# 字符串
rdd4=sc.parallelize({1,2,3,4,5})#集合
rdd5=sc.parallelize({'k1':'v1','k2':'v2'})#字典
#查看rdd中有什么东西,就使用collect()
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

2、通过SparkContext的textFile方法,读取文本文件得到RDD对象

复制代码
"""
读取文件,并将其加载到Spark中,变成RDD对象
"""
rdd=sc.textFile('D:\\softer\\pycharm\\text\\pythonProject2\\data_text\\数据.txt')# 传入目标文件的地址
print(rdd.collect())
sc.stop()
相关推荐
解救女汉子4 分钟前
MySQL并发写入如何避免锁竞争_使用队列缓冲与批量插入优化
jvm·数据库·python
qq_342295825 分钟前
HTML函数开发需要SSD吗_SSD对HTML函数开发效率影响【详解】
jvm·数据库·python
qq_432703668 分钟前
Golang怎么用embed嵌入SQL文件_Golang如何将SQL迁移文件嵌入Go程序统一管理【技巧】
jvm·数据库·python
大黄说说13 分钟前
HTML5语义化标签:从div到article与section的进化之路
前端·html·html5
m0_6403093014 分钟前
如何将 sticky 元素精确定位到父容器的右上角
jvm·数据库·python
帅小伙―苏15 分钟前
力扣42接雨水
前端·算法·leetcode
带娃的IT创业者17 分钟前
深度解析 Claude Design:如何利用 Anthropic 最新设计范式构建 AI 原生应用
人工智能·python·llm·claude·应用开发·anthropic·ai原生应用
是梦终空20 分钟前
计算机毕业设计271—基于python+深度学习+YOLOV7的车牌识别系统(源代码+数据库+3万字论文)
python·深度学习·opencv·yolo·毕业设计·pyqt5·车牌识别系统
糯米团子74921 分钟前
react速通-2
前端·react.js·前端框架
糯米团子74922 分钟前
react速通-3
javascript·react.js·前端框架