spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
CS数模1 小时前
2024 “华为杯” 中国研究生数学建模竞赛(D题)深度剖析|大数据驱动的地理综合问题|数学建模完整代码+建模过程全解全析
大数据·数学建模·华为
陈吉俊2 小时前
实时流处理框架(如Flink、Spark Streaming)
大数据
@听风吟2 小时前
力扣之182.查找重复的电子邮箱
大数据·javascript·数据库·sql·leetcode
Elastic 中国社区官方博客2 小时前
Elasticsearch:检索增强生成背后的重要思想
大数据·人工智能·elasticsearch·搜索引擎·全文检索
嵌入式冰箱2 小时前
2024年中国研究生数学建模竞赛D题“大数据驱动的地理综合问题”全析全解
大数据·数学建模
是店小二呀2 小时前
数据飞轮崛起:数据中台真的过时了吗?
大数据
B站计算机毕业设计超人3 小时前
计算机毕业设计hadoop+spark知网文献论文推荐系统 知识图谱 知网爬虫 知网数据分析 知网大数据 知网可视化 预测系统 大数据毕业设计 机器学习
大数据·hadoop·爬虫·机器学习·spark·知识图谱·推荐算法
Yz98763 小时前
Hadoop里面MapReduce的序列化与Java序列化比较
java·大数据·jvm·hadoop·分布式·mapreduce·big data
Fan5 小时前
Elasticsearch 下载安装及使用总结
大数据·elasticsearch·jenkins