Spark---补充算子

一、Spark补充Transformation算子

1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin

作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))

  • join后的分区数与父RDD分区数多的那一个相同。

2、union

合并两个数据集。两个数据集的类型要一致。

  • 返回新的RDD的分区数是合并RDD分区数的总和。

3、intersection

取两个数据集的交集,返回新的RDD与父RDD分区多的一致

4、substract

取两个数据集的差集,结果RDD的分区数与substract前面的RDD的分区数一致。

5、mapPartitions

与map类似,遍历的单位是每个partition上的数据。

6、distinct(map+reduceByKey+map)

7、cogroup

当调用类型(K,V)和(K,W)的数据上时,返回一个数据集(K,(Iterable<V>,Iterable<W>)),子RDD的分区与父RDD多的一致。

二、Spark补充Action算子

1、foreachPartition

遍历的数据是每个partition的数据。

2、collectAsMap

对K,V格式的RDD数据回收转换成Map<K,V>

3、takeSample(boolean,num,seed)

takeSample可以对RDD中的数据随机获取num个,第一个参数是有无放回,第二个参数是随机获取几个元素,第三个参数如果固定,那么每次获取的数据固定。

4、top(num)

对RDD中的所有元素进行由大到小排序,获取前num个元素返回。

5、takeOrdered(num)

对RDD中的所有元素进行由小到大的排序,获取前num个元素返回。

相关推荐
鸭鸭鸭进京赶烤5 小时前
大学专业科普 | 云计算、大数据
大数据·云计算
G皮T8 小时前
【Elasticsearch】自定义评分检索
大数据·elasticsearch·搜索引擎·查询·检索·自定义评分·_score
掘金-我是哪吒11 小时前
分布式微服务系统架构第156集:JavaPlus技术文档平台日更-Java线程池使用指南
java·分布式·微服务·云原生·架构
亲爱的非洲野猪11 小时前
Kafka消息积压的多维度解决方案:超越简单扩容的完整策略
java·分布式·中间件·kafka
活跃家族11 小时前
分布式压测
分布式
涤生大数据11 小时前
Apache Spark 4.0:将大数据分析提升到新的水平
数据分析·spark·apache·数据开发
搞笑的秀儿11 小时前
信息新技术
大数据·人工智能·物联网·云计算·区块链
SelectDB12 小时前
SelectDB 在 AWS Graviton ARM 架构下相比 x86 实现 36% 性价比提升
大数据·架构·aws
二二孚日12 小时前
自用华为ICT云赛道Big Data第五章知识点-Flume海量日志聚合
大数据·华为
前端世界13 小时前
HarmonyOS开发实战:鸿蒙分布式生态构建与多设备协同发布全流程详解
分布式·华为·harmonyos