【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。

不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

scala 复制代码
val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐
初学者,亦行者5 分钟前
【探索实战】从 30 分钟搭建到生产落地,分布式云原生管理新范式
分布式·云原生
还是鼠鼠2 小时前
Redisson实现的分布式锁能解决主从一致性的问题吗?
java·数据库·redis·分布式·缓存·面试·redisson
G***E3162 小时前
区块链在能源中的分布式交易
分布式·区块链·能源
BD_Marathon4 小时前
【Zookeeper】 Zookeeper入门
分布式·zookeeper·云原生
乌恩大侠6 小时前
AI-RAN 在 Spark上部署 Sionna-RK
大数据·分布式·spark
csdn_aspnet7 小时前
【探索实战】Kurator入门体验与分布式云原生环境搭建
分布式·云原生·kurator
q***69778 小时前
集成RabbitMQ+MQ常用操作
分布式·rabbitmq
灰灰勇闯IT10 小时前
Flutter×鸿蒙深度融合指南:从跨端适配到分布式能力落地(2025最新实战)
分布式·flutter·harmonyos
BD_Marathon10 小时前
【Zookeeper】zk_客户端API_创建节点
分布式·zookeeper·云原生
BD_Marathon10 小时前
【Zookeeper】监听器原理
linux·分布式·zookeeper