spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子

reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。

collect:在驱动程序中以数组形式返回数据集所有元素。

foreach:分布式遍历 RDD 元素并调用指定函数。

count:返回 RDD 中元素个数。

first:返回 RDD 中第一个元素。

take:返回 RDD 前 n 个元素组成的数组。

takeOrdered:返回 RDD 排序后的前 n 个元素组成的数组。

aggregate:分区数据通过初始值和分区内数据聚合,再和初始值进行分区间聚合

fold:折叠操作,是 aggregate 的简化版

countByKey:统计每种 key 的个数。

save 相关算子:将数据保存到不同格式文件

二、累加器

聚合 Executor 端变量信息到 Driver 端。在 Driver 程序中定义的变量,在

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

自定义累加器实现 wordcount:先创建自定义累加器类,再调用注册使用

三、广播变量

高效分发较大只读对象,向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用

相关推荐
^辞安5 分钟前
RocketMQ为什么自研Nameserver而不用zookeeper?
分布式·zookeeper·rocketmq
2301_7816686127 分钟前
Elasticsearch 02
大数据·elasticsearch·搜索引擎
isfox1 小时前
Google GFS 深度解析:分布式文件系统的开山之作
大数据·hadoop
用户Taobaoapi20142 小时前
京东店铺所有商品API技术开发文档
大数据·数据挖掘·数据分析
在未来等你2 小时前
Kafka面试精讲 Day 8:日志清理与数据保留策略
大数据·分布式·面试·kafka·消息队列
江畔独步3 小时前
Flink TaskManager日志时间与实际时间有偏差
大数据·flink
poemyang3 小时前
“你还活着吗?” “我没死,只是网卡了!”——来自分布式世界的“生死契约”
分布式
TDengine (老段)3 小时前
TDengine 选择函数 Last() 用户手册
大数据·数据库·sql·物联网·时序数据库·tdengine·涛思数据
echoyu.3 小时前
消息队列-初识kafka
java·分布式·后端·spring cloud·中间件·架构·kafka
明达智控技术4 小时前
MR30分布式I/O在面机装备中的应用
分布式·物联网·自动化