spark-core编程2

  1. 常用聚合与获取数据算子
  • reduce:聚集RDD所有元素,先分区内聚合,再分区间聚合 ,如 rdd.reduce(+) 可对 RDDInt 类型数据求和。

  • collect:在驱动程序中以数组形式返回数据集所有元素。

  • foreach:分布式遍历RDD元素并调用指定函数 。

  • count:返回RDD中元素个数。

  • first:返回RDD的第一个元素。

  • take:返回RDD前n个元素组成的数组。

  • takeOrdered:返回RDD排序后的前n个元素组成的数组。

代码

结果

  1. 复杂聚合算子
  • aggregate:分区数据先与初始值聚合,再进行分区间聚合,可自定义聚合逻辑。

  • fold:是 aggregate 的简化版,按指定操作和初始值进行折叠操作。

代码

结果

  1. 特定功能算子
  • countByKey:统计 RDD(K, V) 中每种key的个数。

  • save相关算子:包括 saveAsTextFile 保存为文本文件、 saveAsObjectFile 保存为对象文件 、 saveAsSequenceFile (了解即可),用于将RDD数据保存为不同格式。

  1. 累加器:主要用于将Executor端变量信息聚合到Driver端。Driver程序定义变量后,Executor端每个Task都会有该变量副本,Task更新副本值后传回Driver端进行合并。文档通过简单示例展示了累加器的基本用法,还给出了自定义累加器实现wordcount的详细步骤,包括创建自定义累加器类,重写相关方法,以及在Spark程序中注册和调用自定义累加器。

代码

结果

  1. 广播变量:用于高效分发较大的只读对象到所有工作节点,供一个或多个Spark操作使用。以向所有节点发送较大只读查询表为例,说明了广播变量的应用场景。文档通过代码示例,展示了广播变量的使用过程,先创建广播变量,然后在RDD操作中使用广播变量的值,最终输出结果。
相关推荐
SEO_juper15 小时前
2026 谷歌 GEO 免费工具全解:从监测、检测到内容创作,一站式指南
大数据·工具·外贸·geo·独立站·跨境电商独立站·谷歌优化
财经资讯数据_灵砚智能15 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月7日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
LedgerNinja15 小时前
WEEX Labs 周度观察:从“通用对话”到“自主执行”,AI 产业进入价格战与规范发展并行的下半场
大数据·人工智能·物联网
FII工业富联科技服务15 小时前
智慧园区统一运营平台技术架构解析:全景3D世界模型+视频AI+物联网闭环实践
大数据·人工智能·物联网·3d·ai·制造
YangYang9YangYan15 小时前
2026数据分析对报考大数据专业的价值分析
大数据·数据挖掘·数据分析·高考
珠海西格电力15 小时前
零碳园区的竞争力体现在哪些方面?
大数据·人工智能·算法·架构·能源
xixixi7777715 小时前
英伟达 Cosmos3 开源物理世界模型、国内具身智能评测标准落地、宇树冲刺人形机器人第一股|具身智能进入技术、标准、商业化三重爆发期
大数据·人工智能·ai·机器人·开源·英伟达·人形机器人
虎妞050015 小时前
现代数据工程:从 ETL 到 ELT 的架构演进
大数据·etl·数据工程·elt·数据管道
TDengine (老段)15 小时前
TDengine SQL 解析与词法分析 — 从字符串到 AST 的转换之路
大数据·数据库·sql·物联网·时序数据库·tdengine·涛思数据
Ze3G90nYt15 小时前
Redis 分布式锁进阶第一百二十篇
数据库·redis·分布式