spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
QEasyCloud20223 小时前
领星、聚水潭与金蝶云星空三方系统对接技术方案
大数据
江瀚视野3 小时前
DeepWay深向盈利拐点趋近意味着什么?
大数据·人工智能
Bechamz3 小时前
大数据开发学习Day31
大数据·学习·ajax
闵孚龙4 小时前
Claude Code Plan Mode 计划模式全解析:先规划后执行、审批流、计划文件、Auto Mode、多 Agent 协同
大数据·人工智能
财迅通Ai4 小时前
利欧股份科技股权投资成效显著 构建硬科技布局新生态
大数据·人工智能·科技·利欧股份
API快乐传递者4 小时前
深度解析得物详情接口 dewu.item_get_app:技术实现、实操落地与风控规避
大数据
gQ85v10Db4 小时前
Redis分布式锁进阶第三十一篇
数据库·redis·分布式
黎阳之光4 小时前
黎阳之光:视频孪生硬核赋能,共启数字孪生水利监测新征程
大数据·人工智能·算法·安全·数字孪生
工业机器人销售服务5 小时前
告别漫长停机:伯朗特机器人如何用“自动换模”重塑生产效率
大数据·人工智能·算法
oort1235 小时前
OortCloud Super AI Agent 平台——企业级AI生产力与管理平台汇报
大数据·人工智能·用户运营