spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子

reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。

collect:在驱动程序中以数组形式返回数据集所有元素。

foreach:分布式遍历 RDD 元素并调用指定函数。

count:返回 RDD 中元素个数。

first:返回 RDD 中第一个元素。

take:返回 RDD 前 n 个元素组成的数组。

takeOrdered:返回 RDD 排序后的前 n 个元素组成的数组。

aggregate:分区数据通过初始值和分区内数据聚合,再和初始值进行分区间聚合

fold:折叠操作,是 aggregate 的简化版

countByKey:统计每种 key 的个数。

save 相关算子:将数据保存到不同格式文件

二、累加器

聚合 Executor 端变量信息到 Driver 端。在 Driver 程序中定义的变量,在

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

自定义累加器实现 wordcount:先创建自定义累加器类,再调用注册使用

三、广播变量

高效分发较大只读对象,向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用

相关推荐
MicroTech202515 分钟前
业绩披露|微算法科技(MLGO)2025年净利润1.27亿元
大数据·人工智能·科技
AGIPlayer16 分钟前
没有生态的大模型不算前沿
大数据·人工智能·物联网
weilaieqi135 分钟前
际连集团:印尼公司注册代办一站式服务
大数据
林间码客37 分钟前
04 ROC曲线与AUC:从零开始手动计算
大数据·人工智能·算法
穆利堂-movno11 小时前
住宅、写字楼、高校、医院物业后勤数字化升级:“收费+巡检+工单”全链路落地思路
大数据
makise-1 小时前
破译大数据底层密码:从 HDFS 存储基石到现代分布式计算引擎的架构演进
大数据·hdfs·架构
TDengine (老段)1 小时前
TDengine 连接算子 — Inner/Outer/ASOF/Window Join 的实现与使用
大数据·数据库·物联网·哈希算法·时序数据库·tdengine·涛思数据
春日见1 小时前
vscode的AI编程插件推荐:
大数据·ide·vscode·算法·机器学习·编辑器·ai编程
2601_959481922 小时前
CPT Markets:把信息披露习惯做到位——路径梳理与提示整理
大数据
小懿互联集成平台2 小时前
金蝶云星空与赛狐跨境电商ERP系统数据互通对接
大数据·金蝶云星空·数据对接·小懿互联·赛狐erp