Spark RDD简记

RDD概述

1.什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集 ,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算

的集合。

2.RDD特点

RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。

RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系

相关推荐
TDengine (老段)19 分钟前
TDengine IDMP 基本功能(3.数据三化处理)
大数据·数据库·物联网·ai·语言模型·时序数据库·tdengine
货拉拉技术25 分钟前
XXL-JOB参数错乱根因剖析:InheritableThreadLocal在多线程下的隐藏危机
java·分布式·后端
Hello.Reader1 小时前
用 Node.js 玩转 Elasticsearch从安装到增删改查
大数据·elasticsearch·node.js
我要学习别拦我~3 小时前
读《精益数据分析》:UGC平台的数据指标梳理
大数据·经验分享·数据分析
博一波4 小时前
【车联网kafka】Kafka核心架构与实战经验(第三篇)
分布式·架构·kafka
都叫我大帅哥6 小时前
大数据压缩算法:让数据瘦身的魔法艺术
大数据
TDengine (老段)12 小时前
TDengine IDMP 快速体验(方式二 通过 docker)
大数据·数据库·docker·ai·时序数据库·tdengine·涛思数据
小獾哥13 小时前
Centos8系统在安装Git包时,报错:“没有任何匹配: git”
大数据·git·elasticsearch
掘金-我是哪吒16 小时前
分布式微服务系统架构第163集:哈罗电池设备Netty网关架构
分布式·微服务·云原生·架构·系统架构
Code季风18 小时前
如果缓存和数据库更新失败,如何实现最终一致性?
数据库·分布式·缓存·微服务·性能优化