一步一个脚印,一天一道面试题
RDD 是什么?
首先,RDD 全称是 Resilient Distribute Dataset
弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。
RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。
不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个新的rdd2
scala
val rdd2 = rdd1.map(x => x + "_str")
分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。
并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。
Spark 设立RDD
这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。
我是近未来,祝你变得更强!