【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区 ,里面元素可并行计算的数据集合。

不可变 :在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

scala 复制代码
val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐
z落落7 分钟前
C# 事件(Event)+自定义带参数事件例子
开发语言·分布式·c#
我是一颗柠檬1 小时前
【Java项目技术亮点】分库分表+数据路由策略:单表5000万后的架构升级方案
java·开发语言·分布式·架构
半夜修仙2 小时前
RabbitMQ中如何保证消息的可靠性传输
java·分布式·中间件·rabbitmq·github·java-rabbitmq
小二·5 小时前
Redis 7 分布式缓存架构实战
redis·分布式·缓存
zhuhai_xigedian5 小时前
源网荷储一体化 vs 传统供用电模式:差异、优势与转型路径
大数据·人工智能·分布式·系统架构·能源
凯源智能6 小时前
屋顶分布式光伏箱变远程测控实战:宝鸡法士特项目高效交付解析
分布式
Amy187021118238 小时前
东南亚智慧物流园区的“隐形守护者”:有源滤波柜如何驯服变频器5/7次谐波
分布式·能源
闪电悠米9 小时前
黑马点评-Redis 消息队列-04_stream_seckill_order
数据库·redis·分布式·缓存·oracle·junit·lua
HLAIA光子9 小时前
分布式锁与事务:你的微服务可能根本不需要它们
分布式·后端·微服务
bmjIjFNC89 小时前
Redis分布式锁进第九十一篇
数据库·redis·分布式