spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
一生了无挂2 分钟前
深度解析Token、RAG与Agent的层级逻辑、协作关系及落地价值
大数据·人工智能
IT策士13 分钟前
Redis 从入门到精通:分布式锁 —— 从 SETNX 到 Redlock
数据库·redis·分布式
JieDavid14 分钟前
专利流程岗上岸实录|奇智创达知识产权系统实操经验分享
大数据·运维·人工智能·经验分享·产品运营·产品经理
汤姆yu15 分钟前
云知声 U2 原生智能体大模型深度解析
大数据·人工智能·算法·ai·大模型·多模态·智能体
yunceqing17 分钟前
从Excel调度到TMS平台:物流软件开发避坑清单
大数据·前端·网络·人工智能·excel·推荐算法
Java 码思客18 分钟前
【ElasticSearch从入门到架构师】第7章-聚合查询——实现数据统计与分析
大数据·elasticsearch·jenkins
环球科讯27 分钟前
广东省茂名市:普惠金融畅流通,建行助力商贸兴
大数据·人工智能
一切皆是因缘际会28 分钟前
神经符号融合智能体
大数据·数据结构·人工智能·ai
linux修理工29 分钟前
kafka积压
数据库·分布式·kafka
TheRouter36 分钟前
LLM 应用的Prompt 版本管理工程实践:从ad-hoc 字符串到生产级Prompt 仓库
大数据·elasticsearch·ai·prompt