【大数据面试题】023 Spark RDD 是什么？

Jiweilai12024-04-13 12:32

一步一个脚印，一天一道面试题

RDD 是什么？

首先，RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。是整个 Spark 的基础，核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变，可分区 ，里面元素可并行计算的数据集合。

不可变 ：在下面的示例代码中，rdd1 是不会变的，而我们 rdd.map 后，会得到一个新的rdd2

scala 复制代码

val rdd2 = rdd1.map(x => x + "_str")

分布式： Spark 有多个节点，往往不是单节点运行，是集群中多个节点里都有数据。

并行计算：由于是分布式的，所以可以做到每个节点都计算一部分数据，最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来，祝你变得更强！