spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
阿凡观察站24 分钟前
2026年工程项目管理软件推荐:这5款主流产品值得关注
大数据·数据库·低代码·finebi·简道云
qq 137401861129 分钟前
ISTA 3A 2008 包裹运输包装:安全性测试 + 质量测试全流程实操指南
大数据
摇滚侠40 分钟前
自动补全 黑马 Elasticsearch 全套教程,黑马旅游网案例
大数据·elasticsearch·搜索引擎
Justice Young43 分钟前
Flink第三章:Flink运行及部署
大数据·flink
逸Y 仙X1 小时前
文章二十一:ElasticSearch 词项查询与调度查询实战
java·大数据·数据库·elasticsearch·搜索引擎
Bechamz1 小时前
大数据开发学习Day25
java·大数据·学习
AI周红伟1 小时前
AI学习第一课:OpenClaw企业实战应用工作坊
大数据·人工智能
摇滚侠1 小时前
数据聚合 黑马 Elasticsearch 全套教程,黑马旅游网案例
大数据·elasticsearch·搜索引擎
智能化咨询2 小时前
(207页PPT)工业大数据采集处理与应用
大数据
智能化咨询2 小时前
(101页PPT)SAP凯致半导体数字化升级项目方案(附下载方式)
大数据