spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子

reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。

collect:在驱动程序中以数组形式返回数据集所有元素。

foreach:分布式遍历 RDD 元素并调用指定函数。

count:返回 RDD 中元素个数。

first:返回 RDD 中第一个元素。

take:返回 RDD 前 n 个元素组成的数组。

takeOrdered:返回 RDD 排序后的前 n 个元素组成的数组。

aggregate:分区数据通过初始值和分区内数据聚合,再和初始值进行分区间聚合

fold:折叠操作,是 aggregate 的简化版

countByKey:统计每种 key 的个数。

save 相关算子:将数据保存到不同格式文件

二、累加器

聚合 Executor 端变量信息到 Driver 端。在 Driver 程序中定义的变量,在

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

自定义累加器实现 wordcount:先创建自定义累加器类,再调用注册使用

三、广播变量

高效分发较大只读对象,向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用

相关推荐
lix的小鱼12 分钟前
在sheel中运行Spark
大数据·分布式·spark
代码的奴隶(艾伦·耶格尔)17 分钟前
RabbitMq(尚硅谷)
分布式·rabbitmq
Aaaa小嫒同学41 分钟前
spark local模式
大数据·分布式·spark
IvanCodes42 分钟前
二、Hadoop狭义和广义的理解
大数据·hadoop·分布式
星川皆无恙1 小时前
大数据产品销售数据分析:基于Python机器学习产品销售数据爬虫可视化分析预测系统设计与实现
大数据·运维·爬虫·python·机器学习·数据分析·系统架构
知识的小蚂蚁1 小时前
分布式、高并发-Day03
分布式
学java的cc1 小时前
Spring AI快速入门
java·大数据·spring
猪猪果泡酒2 小时前
Spark,配置历史服务
大数据·分布式·spark
anqi272 小时前
在sheel中运行Spark
大数据·开发语言·分布式·后端·spark
乌恩大侠3 小时前
【东枫科技】代理销售 NVIDIA DGX Spark 您的桌上有一台 Grace Blackwell AI 超级计算机。
大数据·人工智能·科技·spark·nvidia