spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
我是一颗柠檬3 分钟前
【Java项目技术亮点】读写分离+主从延迟处理:MySQL高并发下的性能优化方案
java·分布式·mysql·性能优化
量化君也3 分钟前
桥水基金全天候策略拆解,构建中国ETF躺平版策略
大数据·人工智能·python·算法·金融·业界资讯
DataX_ruby827 分钟前
2026年数据中台平台成熟度排名
大数据·人工智能·数据治理·数据中台
爱吃苹果的梨叔11 分钟前
2026年分布式坐席系统哪家好:指挥中心与调度大厅选型参考
分布式·python
十六年开源服务商12 分钟前
2026数字艺术展示网站策划全攻略
大数据·人工智能
YangYang9YangYan15 分钟前
专科大数据技术学习数据分析的价值分析
大数据·学习·数据分析
段一凡-华北理工大学21 分钟前
工业领域的Hadoop架构学习~系列文章23:物流行业Hadoop应用实践 - 智能物流的数字化引擎
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
万岳科技系统开发22 分钟前
骑手配送系统如何支持外卖与跑腿一体化运营
大数据·前端·小程序
Ze3G90nYt30 分钟前
Redis 分布式锁进阶第一百三十一篇
数据库·redis·分布式
云烟成雨TD34 分钟前
Spring AI Alibaba 1.x 系列【75】分布式智能体
人工智能·分布式·spring