【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。

不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

scala 复制代码
val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐
juniperhan27 分钟前
Flink 系列第8篇:Flink Checkpoint 全解析(原理+流程+配置+优化)
大数据·分布式·flink
lvyuanj38 分钟前
zookeeper_cluster
分布式·zookeeper·云原生
嵌入式老牛2 小时前
SST专题3-1 基于光分路器的MMC分布式控制系统架构(二)
分布式·电力电子·mmc·固态变压器
刘~浪地球2 小时前
消息队列--RabbitMQ 高可用集群部署
分布式·rabbitmq·ruby
Albert Edison4 小时前
【RabbitMQ】快速入门
java·分布式·rabbitmq
想你依然心痛4 小时前
HarmonyOS 5.0医疗健康开发实战:构建分布式健康监测与AI预警系统
人工智能·分布式·harmonyos
青春不流名4 小时前
kafka 集成OAUTHBEARER认证的例子
分布式·kafka
洛豳枭薰4 小时前
kafka重平衡导致的消息重复消费或者消息丢失
分布式·kafka
rannn_1114 小时前
【Redis|高级篇1】分布式缓存|持久化(RDB、AOF)、主从集群、哨兵、分片集群
java·redis·分布式·后端·缓存
014-code5 小时前
rabbitmq消息积压:如何快速排查与处理
分布式·rabbitmq