Spark---数据输出

1. 输出为Python对象

collect算子:将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象

reduce算子:对RDD数据集按照传入的逻辑进行聚合

take算子:取RDD的前N个元素,组合成list返回给你

count算子:计算RDD有多少条数据,返回值是一个数字

python 复制代码
# collect算子:将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象
# 语法:rdd.collect()  # 返回一个list

from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = "D:/Program Files/Python3.11.4/python.exe"
conf = SparkConf().setMaster("local[*]").setSparkHome("test_spark")
sc = SparkContext(conf=conf)

rdd = sc.parallelize([1, 2, 3, 4, 5])
my_list = rdd.collect()
print(my_list)  # [1, 2, 3, 4, 5]
print(type(my_list))  # <class 'list'>

# reduce算子:对RDD数据集按照传入的逻辑进行聚合
# 语法:rdd.reduce(func)
#   func(T,T) - > T   # 两个参数,一个返回值,且类型一致
num = rdd.reduce(lambda a, b: a + b)
print(num)  # 15

# take算子:取RDD的前N个元素,组合成list返回给你
take_list = rdd.take(3)
print(take_list)  # [1, 2, 3]

# count算子:计算RDD有多少条数据,返回值是一个数字
num_count = rdd.count()
print(num_count)  # 5

2. 输出到文件中

saveAsTextFile算子:将RDD的数据写入文本文件中

修改RDD分区为1个

  • 方式1:SparkConf对象设置属性全局并行度为1
  • 方式2:创建rdd的时候设置(parallelize方法传入numSlices参数为1)
python 复制代码
# Spark数据输出到文件中
# saveAsTextFile算子:将RDD的数据写入文本文件中
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = "D:/Program Files/Python3.11.4/python.exe"
conf = SparkConf().setMaster("local[*]").setSparkHome("test_spark")
sc = SparkContext(conf=conf)

# 修改RDD分区为1个
# 方式1:SparkConf对象设置属性全局并行度为1
conf.set("spark.default.parallelism", "1")
# 方式2:创建rdd的时候设置(parallelize方法传入numSlices参数为1)
rdd1 = sc.parallelize([1, 2, 3, 4, 5], numSlices=1)
# rdd1 = sc.parallelize([1, 2, 3, 4, 5],1)

# rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize([("hello", 3), ("Spark", 5), ("Hi", 7)])
rdd3 = sc.parallelize([[1, 3, 5], [6, 7, 9], [11, 13, 11]])

rdd1.saveAsTextFile("./output1")
rdd2.saveAsTextFile("./output2")
rdd3.saveAsTextFile("./output3")
相关推荐
HAH-HAH2 小时前
【Python 入门】(2)Python 语言基础(变量)
开发语言·python·学习·青少年编程·个人开发·变量·python 语法
SunnyDays10113 小时前
Python 轻松实现替换或修改 PDF 文字
python·替换pdf文字·修改pdf·修改pdf文字
Just_Paranoid4 小时前
【Settings】恢复出厂设置密码校验
android·python·settings·sha256·hmac-sha256
西猫雷婶5 小时前
pytorch基本运算-Python控制流梯度运算
人工智能·pytorch·python·深度学习·神经网络·机器学习
子午6 小时前
Python的uv包管理工具使用
开发语言·python·uv
java1234_小锋6 小时前
Scikit-learn Python机器学习 - 分类算法 - 朴素贝叶斯
python·机器学习·scikit-learn
凡梦千华6 小时前
Django时区感知
后端·python·django
程序猿 小项目大搞头7 小时前
即梦批量生成图片软件使用运营大管家-即梦图片批量生成器
python
dpxiaolong7 小时前
RK3588 Android12默认移除导航栏
开发语言·python
max5006007 小时前
基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
人工智能·python·深度学习·神经网络·随机森林·线性回归·transformer