spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
GG向前冲几秒前
【Python 金融量化】线性模型在AAPL股票数据的分析研究
大数据·python·机器学习·ai·金融
一只大侠的侠4 分钟前
Spark+Flask新能源车数据分析与推荐系统实战:从0到1搭建完整项目
数据分析·spark·flask
2501_9460187018 分钟前
2026版尼斯分类下商标分类45大类及分类表全解析与选类工具应用
大数据·分类·数据挖掘
小五传输23 分钟前
跨网文件摆渡系统是什么?详解其原理、应用与安全价值
大数据·运维·安全
petrel201526 分钟前
【Spark 核心内参】2025.11:从 ANTLR 的“生态包袱”到远程 Shuffle 的“云原生解药”
大数据·spark
Mikhail_G31 分钟前
Mysql数据库操作指南——数据库(零基础篇)
大数据·数据库·sql·mysql·数据分析
王莽v233 分钟前
FlashAttention 学习笔记:从公式到分布式
人工智能·分布式
王莽v244 分钟前
LLM 分布式推理:切分、通信与优化
人工智能·分布式
重生之绝世牛码1 小时前
Linux软件安装 —— Elasticsearch集群安装(带密码验证)
大数据·linux·运维·数据库·elasticsearch·软件安装
無森~1 小时前
Hive执行复杂查询报错
大数据·数据仓库·hive