spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
卷毛的技术笔记6 小时前
双十一零点扛过10倍流量洪峰:Sentinel与Redis+Lua的分布式限流深度避坑指南
java·redis·分布式·后端·系统架构·sentinel·lua
Volunteer Technology6 小时前
Hadoop Federation 联邦
大数据·hadoop·分布式
liudanzhengxi6 小时前
PyCharm性能调优避坑指南
大数据·新人首发
多年小白7 小时前
【行情复盘】2026年5月8日(周五)
大数据·人工智能·科技·gpt·深度学习·ai
人工智能培训7 小时前
集中式与分布式智能:单个复杂智能体 vs. 多个简单智能体协同
大数据·人工智能·机器学习·计算机视觉·知识图谱
人间富贵花3607 小时前
深度解读贵州工商职业大学大数据技术专业
大数据
书香门第7 小时前
系统设计练习 - 实时警员安全报警系统
分布式·系统架构·系统设计
财经资讯数据_灵砚智能7 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月8日
大数据·人工智能·python·信息可视化·自然语言处理
大大大大晴天️7 小时前
Flink集群跨机房容灾:HDFS 快照权限踩坑与实践
大数据·hdfs·flink
金智维科技官方7 小时前
金智维入选IDC金融生成式AI全景图谱,智能体走向自主执行新阶段
大数据·人工智能·金融