Spark Core

partitionBy

对键值对RDD进行自定义分区,使相同键的数据尽可能分布在同一个分区中(或按指定规则分布)。

示例

join

使用join操作将两个RDD中相同键的值连接在一起,形成嵌套形式的结果。

join示例

转换算子和行动算子

转换算子:各种转换算子(如groupByKey)的作用和用法,这些算子不会立即执行,只有在遇到行动算子时才会触发执行。

groupByKey

示例

代码

运行结果

行动算子:行动算子(如collect、reduce、count、first、take等)的作用和用法,这些算子会触发实际的计算并返回结果。

Count

是一个常用的基础算子,用于统计数据集中的元素数量

示例

分布式计算和分区

分布式计算:RDD是分布式数据结构,数据分布在不同的节点上,行动算子在executor端执行,而结果需要在driver端收集。

分区操作:

输出结果:在使用行动算子时,特别是collect操作时需要注意数据量的大小,避免driver内存溢出。

数据结构与变量

Spark 中的三大数据结构:弹性分布式数据集(RDD)、累加器和广播变量。

广播变量在处理较大只读变量时的高效性。

相关推荐
武子康5 小时前
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例
大数据·后端·spark
闯闯桑21 小时前
Spark 中spark.implicits._ 中的 toDF和DataFrame 类本身的 toDF 方法
大数据·ajax·spark·scala
武子康1 天前
大数据-94 Spark核心三剑客:RDD、DataFrame、Dataset与SparkSession全面解析
大数据·后端·spark
IT研究室2 天前
大数据毕业设计选题推荐-基于大数据的国内旅游景点游客数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
XueminXu2 天前
Spark提交任务的资源配置和优化
spark·并行度·spark-submit·driver-memory·num-executors·executor-memory·executor-cores
Leo.yuan2 天前
不同数据仓库模型有什么不同?企业如何选择适合的数据仓库模型?
大数据·数据库·数据仓库·信息可视化·spark
小朋友,你是否有很多问号?2 天前
spark11-sparkSQL 实现wordcount
spark
IT研究室3 天前
大数据毕业设计选题推荐-基于大数据的国家药品采集药品数据可视化分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
MOMO陌染3 天前
IDEA环境搭建与输出
scala
道一云黑板报3 天前
Spark生态全景图:图计算与边缘计算的创新实践
大数据·性能优化·spark·边缘计算