Spark Core

partitionBy

对键值对RDD进行自定义分区,使相同键的数据尽可能分布在同一个分区中(或按指定规则分布)。

示例

join

使用join操作将两个RDD中相同键的值连接在一起,形成嵌套形式的结果。

join示例

转换算子和行动算子

转换算子:各种转换算子(如groupByKey)的作用和用法,这些算子不会立即执行,只有在遇到行动算子时才会触发执行。

groupByKey

示例

代码

运行结果

行动算子:行动算子(如collect、reduce、count、first、take等)的作用和用法,这些算子会触发实际的计算并返回结果。

Count

是一个常用的基础算子,用于统计数据集中的元素数量

示例

分布式计算和分区

分布式计算:RDD是分布式数据结构,数据分布在不同的节点上,行动算子在executor端执行,而结果需要在driver端收集。

分区操作:

输出结果:在使用行动算子时,特别是collect操作时需要注意数据量的大小,避免driver内存溢出。

数据结构与变量

Spark 中的三大数据结构:弹性分布式数据集(RDD)、累加器和广播变量。

广播变量在处理较大只读变量时的高效性。

相关推荐
yumgpkpm13 小时前
Iceberg在Cloudera CDP集群详细操作步骤
大数据·人工智能·hive·zookeeper·spark·开源·cloudera
梦里不知身是客1120 小时前
spark的统一内存管理机制
java·大数据·spark
华阙之梦20 小时前
【仅公网互通的 Spark 集群通信与配置实战方案】
大数据·ajax·spark
心止水j1 天前
数据采集-----案例
spark
梦里不知身是客111 天前
RDD分区的设定规则
spark
梦里不知身是客111 天前
spark中如何调节Executor的堆外内存
大数据·javascript·spark
凯新生物2 天前
聚乙二醇二生物素,Biotin-PEG-Biotin在生物检测中的应用
scala·bash·laravel·perl
beijingliushao2 天前
105-Spark之Standalone HA环境搭建过程
大数据·spark
谁黑皮谁肘击谁在连累直升机2 天前
文件读写-成绩分析
scala
毅硕科技2 天前
毅硕HPC | NVIDIA DGX Spark 万字硬核评测:将AI超级工厂带上桌面
功能测试·spark·hpc