Spark Core

partitionBy

对键值对RDD进行自定义分区,使相同键的数据尽可能分布在同一个分区中(或按指定规则分布)。

示例

join

使用join操作将两个RDD中相同键的值连接在一起,形成嵌套形式的结果。

join示例

转换算子和行动算子

转换算子:各种转换算子(如groupByKey)的作用和用法,这些算子不会立即执行,只有在遇到行动算子时才会触发执行。

groupByKey

示例

代码

运行结果

行动算子:行动算子(如collect、reduce、count、first、take等)的作用和用法,这些算子会触发实际的计算并返回结果。

Count

是一个常用的基础算子,用于统计数据集中的元素数量

示例

分布式计算和分区

分布式计算:RDD是分布式数据结构,数据分布在不同的节点上,行动算子在executor端执行,而结果需要在driver端收集。

分区操作:

输出结果:在使用行动算子时,特别是collect操作时需要注意数据量的大小,避免driver内存溢出。

数据结构与变量

Spark 中的三大数据结构:弹性分布式数据集(RDD)、累加器和广播变量。

广播变量在处理较大只读变量时的高效性。

相关推荐
张较瘦_5 小时前
[论文阅读] 从 5MB 到 1.6GB 数据:Java/Scala/Python 在 Spark 中的性能表现全解析
java·python·scala
绿算技术5 小时前
绿算GP Spark引爆关注,成为AI工厂存储利器
大数据·人工智能·spark
uesowys20 小时前
Apache Spark算法开发指导-特征转换Interaction
spark·特征转换interaction
扫地的小何尚1 天前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
B站_计算机毕业设计之家1 天前
spark实战:python股票数据分析可视化系统 Flask框架 金融数据分析 Echarts可视化 大数据技术 ✅
大数据·爬虫·python·金融·数据分析·spark·股票
可惜我是水瓶座__1 天前
[Spark] TaskMetrics指标收集
spark·1024程序员节
hzp6661 天前
spark动态分区参数spark.sql.sources.partitionOverwriteMode
大数据·hive·分布式·spark·etl·partitionover
菜鸡儿齐3 天前
spark组件-spark sql-读取数据
大数据·sql·spark
GitCode官方4 天前
科大讯飞星火科技文献大模型 Spark-Scilit-X1-13B 在 GitCode 开源,助力科研智能化革新!
科技·spark·gitcode
想ai抽4 天前
大数据计算引擎-从源码看Spark AQE对于倾斜的处理
大数据·数据仓库·spark