【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。

不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

scala 复制代码
val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐
鸽鸽程序猿10 分钟前
【RabbitMQ】工作模式实现
分布式·rabbitmq
筑梦之人1 小时前
Spark-3.5.7文档3 - Spark SQL、DataFrame 和 Dataset 指南
spark
Luke Ewin2 小时前
内网私有化分布式集群部署语音识别接口
人工智能·分布式·语音识别·asr·funasr·通话语音质检·区分说话人
筑梦之人2 小时前
Spark-3.5.7文档4 - Structured Streaming 编程指南
spark
Q26433650233 小时前
【有源码】基于Hadoop+Spark的起点小说网大数据可视化分析系统-基于Python大数据生态的网络文学数据挖掘与可视化系统
大数据·hadoop·python·信息可视化·数据分析·spark·毕业设计
小马爱打代码4 小时前
实战:分布式开源监控Zabbix
分布式·开源·zabbix
筑梦之人5 小时前
Spark-3.5.7文档2 - RDD 编程指南
大数据·分布式·spark
happy_king_zi6 小时前
RabbitMQ 是否也支持消费组
分布式·rabbitmq
兮动人7 小时前
PrettyZoo:优雅易用的 ZooKeeper 可视化管理工具
分布式·zookeeper·云原生·prettyzoo
回家路上绕了弯8 小时前
五分钟内重复登录 QQ 号定位:数据结构选型与高效实现方案
分布式·后端