【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。

不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

scala 复制代码
val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐
敖正炀3 小时前
高并发系统的降级预案与容错策略
分布式·架构
敖正炀3 小时前
稳定性监控与告警体系:SLI/SLO/SLA 实践
分布式·架构
敖正炀3 小时前
故障演练与混沌工程:ChaosBlade 到 Litmus
分布式·架构
敖正炀3 小时前
全链路压测与容量规划方法论
分布式·架构
敖正炀4 小时前
限流算法深度与 Guava/Sentinel 源码:从单机令牌桶到分布式滑动窗口的流量防护体系
分布式·架构
山屿落星辰7 小时前
hixl - 让分布式训练“零拷贝“通信
分布式
逍遥德10 小时前
SpringBoot自带TaskScheduler 接口使用详解:(02)微服务多实例模式下,爆发任务重复执行问题
spring boot·分布式·后端·微服务·中间件
Solis程序员11 小时前
基于 Outbox 事务表 + Canal 监听+kafka+多级缓存:高并发社交关注系统全链路架构设计
分布式·kafka·linq
phltxy11 小时前
Redis集群:分布式高可用存储方案
数据库·redis·分布式
二宝哥11 小时前
大数据之安装zookeeper
大数据·分布式·zookeeper