Spark RDD简记

RDD概述

1.什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集 ,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算

的集合。

2.RDD特点

RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。

RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系

相关推荐
就改了44 分钟前
Windows Elasticsearch 完整上手教程
大数据·windows·elasticsearch
yyuuuzz1 小时前
独立站运营的几个技术层面常见问题
大数据·运维·服务器·网络·数据库·aws
XIAOYU6720131 小时前
高中物理成绩优异,适合报考大数据哪个细分专业数学成绩偏弱,还适合填报大数据相关专业吗
大数据
2601_954971131 小时前
大数据需要掌握哪些主流大数据工具框架
大数据
Urbano2 小时前
工装标准缝纫流程及自动化升级提质增产方案
大数据·人工智能·算法
wanghowie2 小时前
35. 从AI客服到AI运营助手:Workflow、Single Agent、Multi-Agent、Agent Native 的架构选型实践
大数据·人工智能·架构
湘美书院--湘美谈教育2 小时前
湘美谈教育湘美书院考古教育系列:湖湘一万年序列整理研究
大数据·人工智能·深度学习·神经网络·机器学习
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
万岳科技程序员小金2 小时前
SaaS还是源码部署?网校教育平台开发方案对比
大数据·在线教育系统源码·教育软件开发·教育小程序开发·教育网校平台搭建
yyuuuzz2 小时前
游戏云服务器推荐的技术选择思路
大数据·运维·服务器·游戏·云计算·aws