spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子

reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。

collect:在驱动程序中以数组形式返回数据集所有元素。

foreach:分布式遍历 RDD 元素并调用指定函数。

count:返回 RDD 中元素个数。

first:返回 RDD 中第一个元素。

take:返回 RDD 前 n 个元素组成的数组。

takeOrdered:返回 RDD 排序后的前 n 个元素组成的数组。

aggregate:分区数据通过初始值和分区内数据聚合,再和初始值进行分区间聚合

fold:折叠操作,是 aggregate 的简化版

countByKey:统计每种 key 的个数。

save 相关算子:将数据保存到不同格式文件

二、累加器

聚合 Executor 端变量信息到 Driver 端。在 Driver 程序中定义的变量,在

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

自定义累加器实现 wordcount:先创建自定义累加器类,再调用注册使用

三、广播变量

高效分发较大只读对象,向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用

相关推荐
Tom Boom3 分钟前
43. 远程分布式测试实现
分布式·测试开发·自动化·webdriver·自动化测试框架开发·分布式测试
时序数据说20 分钟前
时序数据库IoTDB如何快速高效地存储时序数据
大数据·数据库·开源·时序数据库·iotdb
漫谈网络2 小时前
Git深入解析功能逻辑与核心业务场景流程
大数据·git
从零开始学习人工智能3 小时前
核函数:解锁支持向量机的强大能力
大数据·人工智能·机器学习
深夜的螺蛳粉3 小时前
分布式事务之事务消息
分布式
快乐肚皮4 小时前
Redisson学习专栏(四):实战应用(分布式会话管理,延迟队列)
分布式·学习·redisson·延迟队列·分布式会话
纪元A梦5 小时前
分布式流处理与消息传递——Kafka ISR(In-Sync Replicas)算法深度解析
java·分布式·算法·kafka
中间件XL6 小时前
搜索引擎2.0(based elasticsearch6.8)设计与实现细节(完整版)
大数据·elasticsearch·搜索引擎
我的golang之路果然有问题7 小时前
RabbitMQ-Go 性能分析
笔记·分布式·后端·学习·golang·rabbitmq
卡布奇诺-海晨7 小时前
Redis分布式锁深度解析与最佳实践
数据库·redis·分布式