spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
N串4 分钟前
2.7 公司内部的“阶级”是什么
大数据·人工智能
lizhihai_991 小时前
股市学习心得—商业航天10大核心材料供应商
大数据·人工智能·学习
app软件定制开发173770910721 小时前
世界杯应用开发的关键要点与注意事项
大数据·区块链
数智联AI团队1 小时前
AI员工时代已来:企业如何选择靠谱的“AI团队”实现降本增效?
大数据·人工智能
冯RI375II694872 小时前
2026年沙特SABER认证最新要求及注意事项
大数据
小王毕业啦2 小时前
2013-2023年 银行风险资产占比数据
大数据·人工智能·数据挖掘·数据分析·社科数据
weixin_553654482 小时前
2026 年,如何构建一套具备自愈能力的 AI Agent 自动化工作流?
大数据·人工智能·自动化
多年小白2 小时前
2026年5月5日
大数据·人工智能·深度学习·microsoft·机器学习·ai·自动驾驶
_Evan_Yao3 小时前
内存映射文件与零拷贝:Kafka、RocketMQ 飞升的秘密通道
分布式·kafka·rocketmq
YANZ2223 小时前
亚马逊绿标(CPF):从环保认证到跨境流量新引擎
java·大数据·人工智能·搜索引擎·百度