spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
还是大剑师兰特1 小时前
Hadoop面试题及详细答案 110题 (106-110)-- Hadoop高级与实战
大数据·hadoop·分布式
努力成为一个程序猿.2 小时前
【问题排查】hadoop-shaded-guava依赖问题
大数据·hadoop·spark
达芬奇科普2 小时前
俄罗斯全面禁止汽油出口对俄、欧、中能源市场的多维影响分析
大数据·人工智能
RE-19014 小时前
《深入浅出统计学》学习笔记(二)
大数据·数学·概率论·统计学·数理统计·知识笔记·深入浅出
壹佰大多4 小时前
【Redisson分布式锁源码分析-3】
数据结构·分布式·mysql·spring·spring cloud·wpf·lua
不会写代码的ys5 小时前
仿RabbitMQ实现消息队列(一)--项目介绍
分布式·rabbitmq
数据库学啊5 小时前
分布式数据库架构设计指南:TDengine如何支持10亿级数据点的水平扩展
数据库·分布式·时序数据库·数据库架构·tdengine
yumgpkpm7 小时前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)使用 AI 优化库存水平、配送路线的具体案例及说明
大数据·人工智能·hive·hadoop·机器学习·zookeeper·cloudera
~kiss~7 小时前
spark-SQL学习
sql·学习·spark
临风赏月8 小时前
Hudi、Iceberg、Delta Lake、Paimon四种数据湖的建表核心语法
大数据