Spark Core

partitionBy

对键值对RDD进行自定义分区,使相同键的数据尽可能分布在同一个分区中(或按指定规则分布)。

示例

join

使用join操作将两个RDD中相同键的值连接在一起,形成嵌套形式的结果。

join示例

转换算子和行动算子

转换算子:各种转换算子(如groupByKey)的作用和用法,这些算子不会立即执行,只有在遇到行动算子时才会触发执行。

groupByKey

示例

代码

运行结果

行动算子:行动算子(如collect、reduce、count、first、take等)的作用和用法,这些算子会触发实际的计算并返回结果。

Count

是一个常用的基础算子,用于统计数据集中的元素数量

示例

分布式计算和分区

分布式计算:RDD是分布式数据结构,数据分布在不同的节点上,行动算子在executor端执行,而结果需要在driver端收集。

分区操作:

输出结果:在使用行动算子时,特别是collect操作时需要注意数据量的大小,避免driver内存溢出。

数据结构与变量

Spark 中的三大数据结构:弹性分布式数据集(RDD)、累加器和广播变量。

广播变量在处理较大只读变量时的高效性。

相关推荐
暴躁小师兄数据学院17 小时前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
IDIOT___IDIOT1 天前
Docker 集群运行 Spark 的一些记录
docker·容器·spark
2601_961194021 天前
考研学校专业课真题
spring boot·考研·eclipse·log4j·scala·symfony
更深兼春远1 天前
scala基于IDEA部署
开发语言·scala·intellij-idea
工业互联网专业2 天前
基于Spark的共享单车数据存储系统的设计与实现_flask+spider
spark·flask·毕业设计·源码·课程设计·spider·共享单车
X.AI6662 天前
英伟达RTX Spark发布:AI PC的下一战,不是跑分,而是本地Agent
大数据·人工智能·spark
KaMeidebaby3 天前
卡梅德生物技术快报|peg 修饰调控 MXene/WS2 异质结,氨气传感器制备与机理研究
大数据·前端·人工智能·架构·spark·新浪微博
零壹AI实验室3 天前
NVIDIA RTX Spark深度测评:个人AI智能体时代真的来了?
人工智能·ajax·spark
罗小罗同学4 天前
Nat Med发表SPARK智能体框架,可以自主思考、提出假设、设计实验并验证结果,让AI也能主动发现肿瘤生物学规律
大数据·人工智能·spark·医学图像处理
KaMeidebaby5 天前
卡梅德生物技术快报|Pull Down 实验在 lncRNA - 蛋白互作机制研究中的应用实例解析
大数据·前端·架构·spark·新浪微博