技术栈
rdd的5个主要特性
阿年、嗯啊
9 个月前
大数据
·
分布式
·
spark
·
rdd
·
rdd的5个主要特性
横扫Spark之 - RDD(Resilient Distributed Dataset)弹性分布式数据集
水善利万物而不争,处众人之所恶,故几于道💦RDD就是Spark中的一种数据抽象,比如下面的代码(不用管他是干啥的)很多操作的返回值就直接是一个RDD类型。代码里面RDD就是一个抽象类 你可以理解成函数,但是Spark里面它不叫函数,它同样封装的是对数据的操作,a操作的返回值类型是一个RDD,b又基于a的结果进行操作 返回值的类型又是一个RDD…你可以想象成套娃,就比如下图