spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
天行健,君子而铎18 分钟前
自适应分类·高准确率·可视化易用——运营商数据分类分级解决方案
大数据·分类
霸道流氓气质28 分钟前
分布式追踪与 RequestId 传播完全指南
分布式
root_1029 分钟前
kylin-v10-sp3-x86系统安装vmware-17
大数据·chrome·kylin
小t说说36 分钟前
技术观察:从职坐标看一家IT培训机构的课程体系与AI教学工具
大数据·人工智能
超级赛博搬砖工37 分钟前
SEO代理解析:成功搜索引擎抓取你需要了解的事项
大数据·运维·服务器·网络
babe小鑫38 分钟前
大数据专业课难度高,学数据分析的价值
大数据·数据挖掘·数据分析
cheems952741 分钟前
[RabbitMQ高级特性] 消息确认机制:从 Ready / Unacked 到 basicAck、basicReject、basicNack 的底层拆解
分布式·rabbitmq·ruby
terry60044 分钟前
5G视频短信服务商选型全攻略:通道资源、架构能力与成本评估2026最新标准
大数据·人工智能·5g·json·asp.net·信息与通信·数据库架构
旗讯数字1 小时前
旗讯 OCR 工业手写识别解决方案|破解车间纸质表单录入难题,加速生产数字化转型
大数据·ocr
会Tk矩阵群控的小木1 小时前
抖音电商矩阵系统技术方案:多店铺账号运营管理全模块实现详解
大数据