Spark RDD简记

RDD概述

1.什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集 ,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算

的集合。

2.RDD特点

RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。

RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系

相关推荐
数据猿8 小时前
【金猿CIO展】上海虹迪物流科技有限公司董事长兼CIO张鹏飞:聚焦数字化核心——物流供应链的的智慧演进之路
大数据·科技
deepdata_cn9 小时前
“深数据” vs “大数据”
大数据·bigdata·深数据·deepdata
数字化转型202511 小时前
SAP Signavio 在风机制造行业的深度应用研究
大数据·运维·人工智能
sheji341612 小时前
【开题答辩全过程】以 基于大数据的城市租房数据的分析与可视化为例,包含答辩的问题和答案
大数据
Augustvic12 小时前
消息队列Kafka
分布式·kafka
java1234_小锋14 小时前
Zookeeper分布式锁如何实现?
分布式·zookeeper·云原生
Biehmltym15 小时前
【AI】09AI Agent LLM → Streaming → Session 记录 的完整链路
大数据·人工智能·elasticsearch
Data-Miner15 小时前
精品PPT | 某制造集团灯塔工厂解决方案
大数据·人工智能·制造
小湘西16 小时前
Elasticsearch 的一些默认配置上下限
java·大数据·elasticsearch
`林中水滴`17 小时前
SeaTunnel vs Flume
大数据·flume