【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。

不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

scala 复制代码
val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐
没有bug.的程序员2 小时前
服务网格 Service Mesh:微服务通信的终极进化
java·分布式·微服务·云原生·service_mesh
笨手笨脚の9 小时前
Kafka-1 初识消息引擎系统
分布式·kafka·消息队列·消息引擎系统
2351611 小时前
【MQ】RabbitMQ:架构、工作模式、高可用与流程解析
java·分布式·架构·kafka·rabbitmq·rocketmq·java-rabbitmq
xrkhy12 小时前
分布式之RabbitMQ的使用(3)QueueBuilder
分布式·rabbitmq
__XYZ13 小时前
RedisTemplate 实现分布式锁
java·spring boot·redis·分布式·junit
失散1315 小时前
分布式专题——44 ElasticSearch安装
java·分布式·elasticsearch·架构
無限神樂16 小时前
RabbitMQ概述,Rabbitmq是什么
分布式·rabbitmq
fakerth16 小时前
【OpenHarmony】分布式文件服务模块架构
分布式·架构·操作系统·openharmony
通信小呆呆16 小时前
分布式雷达 vs 多基地雷达:同频共振的“合唱团”和“乐队”
分布式·目标检测·信息与通信·信号处理·计算成像
北极光SD-WAN组网16 小时前
分布式控制系统(DCS)的智能组网技术解析及解决方案
分布式