spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
清平乐的技术专栏9 分钟前
查看impala版本
大数据
土土哥V_araolin10 分钟前
一生手护分销模式系统开发概述
大数据·小程序·零售
AI先驱体验官19 分钟前
数字人时代来临:实时互动数字人解决方案深度解析
大数据·网络·人工智能·深度学习·机器学习·重构·实时互动
m0_7520356324 分钟前
ROW_NUMBER() OVER() 窗口函数详解
大数据·数据库
土土哥V_araolin30 分钟前
2+1链动退休模式系统(升级版)解析
大数据·小程序·零售
Eternity_GQM1 小时前
【Git入门】
大数据·git·elasticsearch
ManageEngineITSM1 小时前
功能越来越强,但 IT 使用体验却越来越差
大数据·excel·资产管理·itsm·工单系统
YA8888888888891 小时前
数字时代B端拓客:号码核验的价值重构与行业突围,氪迹科技法人股东号码筛选系统,阶梯式
大数据·人工智能·重构
wanzehongsheng1 小时前
分布式光伏电站的技术优势与智能运维实践:以WZ HELIO²双轴跟踪系统为例
运维·分布式
爱浦路 IPLOOK1 小时前
分布式UPF架构:让低时延与大带宽不再是难题
分布式·架构