spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
QEasyCloud202215 小时前
领星、聚水潭与金蝶云星空三方系统对接技术方案
大数据
江瀚视野15 小时前
DeepWay深向盈利拐点趋近意味着什么?
大数据·人工智能
Bechamz15 小时前
大数据开发学习Day31
大数据·学习·ajax
闵孚龙16 小时前
Claude Code Plan Mode 计划模式全解析:先规划后执行、审批流、计划文件、Auto Mode、多 Agent 协同
大数据·人工智能
财迅通Ai16 小时前
利欧股份科技股权投资成效显著 构建硬科技布局新生态
大数据·人工智能·科技·利欧股份
API快乐传递者16 小时前
深度解析得物详情接口 dewu.item_get_app:技术实现、实操落地与风控规避
大数据
gQ85v10Db16 小时前
Redis分布式锁进阶第三十一篇
数据库·redis·分布式
黎阳之光17 小时前
黎阳之光:视频孪生硬核赋能,共启数字孪生水利监测新征程
大数据·人工智能·算法·安全·数字孪生
工业机器人销售服务17 小时前
告别漫长停机:伯朗特机器人如何用“自动换模”重塑生产效率
大数据·人工智能·算法
oort12317 小时前
OortCloud Super AI Agent 平台——企业级AI生产力与管理平台汇报
大数据·人工智能·用户运营