Spark Core

partitionBy

对键值对RDD进行自定义分区,使相同键的数据尽可能分布在同一个分区中(或按指定规则分布)。

示例

join

使用join操作将两个RDD中相同键的值连接在一起,形成嵌套形式的结果。

join示例

转换算子和行动算子

转换算子:各种转换算子(如groupByKey)的作用和用法,这些算子不会立即执行,只有在遇到行动算子时才会触发执行。

groupByKey

示例

代码

运行结果

行动算子:行动算子(如collect、reduce、count、first、take等)的作用和用法,这些算子会触发实际的计算并返回结果。

Count

是一个常用的基础算子,用于统计数据集中的元素数量

示例

分布式计算和分区

分布式计算:RDD是分布式数据结构,数据分布在不同的节点上,行动算子在executor端执行,而结果需要在driver端收集。

分区操作:

输出结果:在使用行动算子时,特别是collect操作时需要注意数据量的大小,避免driver内存溢出。

数据结构与变量

Spark 中的三大数据结构:弹性分布式数据集(RDD)、累加器和广播变量。

广播变量在处理较大只读变量时的高效性。

相关推荐
编程彩机4 小时前
互联网大厂Java面试:从分布式架构到大数据场景解析
java·大数据·微服务·spark·kafka·分布式事务·分布式架构
Moshow郑锴13 小时前
Spark在银行系统ETL中的实战应用:TXT文件到PostgreSQL的余额处理全流程
postgresql·spark·etl
小邓睡不饱耶14 小时前
使用Scala实现手机号码归属地查询系统
开发语言·windows·scala
petrel201514 小时前
【Spark 核心内参】2026.1:JIRA vs GitHub Issues 治理模式大讨论与 4.2.0 预览版首发
大数据·spark
petrel201515 小时前
【Spark 核心内参】2025.9:预览版常态化与数据类型的重构
大数据·spark
bigdata-rookie15 小时前
Spark shuffle 和 MapReduce shuffle 的区别
大数据·spark·mapreduce
B站计算机毕业设计超人15 小时前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
B站计算机毕业设计超人15 小时前
计算机毕业设计PySpark+Hive+Django小红书评论情感分析 小红书笔记可视化 小红书舆情分析预测系统 大数据毕业设计(源码+LW+PPT+讲解)
大数据·人工智能·hive·爬虫·python·spark·课程设计
uesowys16 小时前
Apache Spark算法开发指导-Random forest classifier
算法·随机森林·spark
张小凡vip1 天前
数据挖掘(十)---python操作Spark常用命令
python·数据挖掘·spark