RDD触发算子的使用

count

复制代码
"""
返回值int
获取总条数
"""

take

复制代码
"""
返回前几条的数据
在driver的内存中存放------------只能少量 也就是说最终会放到同一个分区中
不会自动打印
"""

foreach

复制代码
"""
遍历每一条数据------打印

foreach 会对每个分区内的元素进行并行处理
结果的顺序可能每次都不一样,输出的具体顺序是不可预测的
要想真正排序 ,要么将分区减为1 要么collect
"""

saveAsTextFile

复制代码
"""
将数据保存在外部文件(hdfs)中
生成的文件和分区数有关

"""

collect

复制代码
"""
收集数据------将RDD转化成一个列表返回

这个RDD的数据一定不能过大,如果RDD数据量很大,导致Driver内存溢出
"""

first

复制代码
"""
获取RDD中的第一个值

"""

reduce

复制代码
"""
将RDD中的每个元素按照给定的聚合函数进行聚合,返回聚合的结果
类似sum()
"""

top

复制代码
"""
获取RDD中的最大的几个
会自动排序 ,可以指定排序规则
相当于 sortBy+take
"""
# 按照某一列进行排序
.top(10, lambda a: a[1])

不写的话 应该是按照key 值进行排序

takeOrdered

复制代码
"""
获取RDD中的最小的几个
自带排序 
"""

max

其中max和top均可以返回最大值,那么区别是什么

max:

1、只返回数据集中指定列或RDD中的最大值,即单一的最大元素。

2、并不对数据进行排序,通过分布式的计算方式查找数据集中的最大值

top

1、返回数据集中的前几个最大值,可以指定返回的数量。即使只需要一个最大值,也会以列表的形式返回。

2、对数据集进行局部排序,然后返回指定数量的最大值,因此在一定程度上会影响性能(特别是在数据量较大时)。top 方法默认返回结果是降序排列的。

复制代码
"""
获取最大值
触发算子
"""
rsRdd.max(lambda tupleA: tupleA[1])

min

复制代码
"""
获取最小值
触发算子
"""
rsRdd.min(lambda tupleA: tupleA[1])

mean

复制代码
"""
获取平均值
触发算子
"""
rsRdd.mean(lambda tupleA: tupleA[1])
相关推荐
nashane14 分钟前
HarmonyOS 6学习:旋转动画优化与长截图性能调优——打造丝滑交互体验的深度实践
学习·交互·harmonyos·harmonyos 5
kongba00724 分钟前
项目打包 Python Flask 项目发布与打包专家 提示词V1.0
开发语言·python·flask
华清远见IT开放实验室1 小时前
智能手表完整项目实现,比赛求职双向加分,基于嵌入式大赛推荐开发板(STM32U5)
stm32·单片机·嵌入式硬件·学习·智能手表·嵌入式大赛
belldeep1 小时前
介绍 遗传算法 与 TSP问题
python·遗传算法·ga·tsp问题
解救女汉子1 小时前
SQL触发器如何获取触发源应用名_利用APP_NAME函数追踪
jvm·数据库·python
炽烈小老头1 小时前
【 每天学习一点算法 2026/04/22】四数相加 II
学习·算法
uncle_ll1 小时前
LangChain基础学习笔记
笔记·学习·langchain·llm·rag
pingao1413781 小时前
智联未来:4G温湿度传感器如何重塑数据监测新生.态
大数据·网络·人工智能
三品吉他手会点灯1 小时前
C语言学习笔记 - 14.C编程预备计算机专业知识 - 本讲内容概述
c语言·笔记·学习
Thanwind1 小时前
从0开始的机器学习之旅(二):监督学习,从线性回归说起
学习·机器学习·线性回归