RDD有哪几种创建方式

RDD 的创建方式

在 Spark 中,RDD 可以通过多种方式进行创建。以下是主要的两种方法及其详细说明:

1. 从集合中创建 RDD

这是最简单的方式之一,适用于本地数据结构(如数组或列表)转化为分布式数据集的情况。parallelize()makeRDD() 是两个常用的方法来实现这一点。

  • 使用 parallelize() 方法可以将一个 Scala 集合对象转换为 RDD2

    复制代码

    scala

    val conf = new SparkConf().setAppName("Example").setMaster("local") val sc = new SparkContext(conf) // 将本地数组转为 RDD val rdd: RDD[Int] = sc.parallelize(Array(1, 2, 3, 4))

  • 同样地,也可以使用 makeRDD() 来完成相同的功能1:

    复制代码

    scala

    val rdd1: RDD[Int] = sc.makeRDD(Array(1, 2, 3, 4, 5, 6))

这两种方法本质上都是把内存中的数据分布到集群的不同节点上去形成一个 RDD 实例2

2. 从外部存储系统加载数据创建 RDD

除了能够直接由程序内部的数据构建外,RDD 还可以从诸如 HDFS,S3,Cassandra,HBase 等外部存储媒介里获取原始资料进而初始化自己.

  • 当需要处理大规模存在于远程文件服务器上的文本文档时,则可通过调用 textFile() 函数指定路径参数达成目标2 :

    复制代码

    scala

    val hdfsRdd = sc.textFile("hdfs://localhost:9000/data/words.txt")

此命令会读取位于给定 URI 下的所有文件并将每一行作为单独元素放入最终得到的新建实例之中.

综上所述,无论是针对小型测试用途还是生产环境下涉及庞大数据量的实际运用场景,Spark 均提供了灵活简便的方式来生成所需的 RDD 结构形式以便后续进一步分析挖掘价值所在.

相关推荐
鹏说大数据2 小时前
Spark 和 Hive 的关系与区别
大数据·hive·spark
B站计算机毕业设计超人2 小时前
计算机毕业设计Hadoop+Spark+Hive招聘推荐系统 招聘大数据分析 大数据毕业设计(源码+文档+PPT+ 讲解)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
B站计算机毕业设计超人2 小时前
计算机毕业设计hadoop+spark+hive交通拥堵预测 交通流量预测 智慧城市交通大数据 交通客流量分析(源码+LW文档+PPT+讲解视频)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
Lansonli8 小时前
大数据Spark(八十):Action行动算子fold和aggregate使用案例
大数据·分布式·spark
鸿乃江边鸟1 天前
Spark Datafusion Comet 向量化Rust Native--CometShuffleExchangeExec怎么控制读写
大数据·rust·spark·native
伟大的大威2 天前
NVIDIA DGX Spark (ARM64/Blackwell) Kubernetes 集群 + GPU Operator 完整部署指南
大数据·spark·kubernetes
小邓睡不饱耶2 天前
深度实战:Spark GraphX构建用户信任网络,精准锁定高价值目标用户(含完整案例)
大数据·spark·php
B站计算机毕业设计超人2 天前
计算机毕业设计hadoop+spark+hive共享单车预测系统 共享单车数据可视化分析 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·python·深度学习·spark·毕业设计·课程设计
B站计算机毕业设计超人2 天前
计算机毕业设计Python+Spark+Hadoop+Hive微博舆情分析 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·python·spark·cnn·课程设计
yumgpkpm2 天前
华为昇腾300T A2训练、微调Qwen过程,带保姆式命令,麒麟操作系统+鲲鹏CPU
hive·hadoop·华为·flink·spark·kafka·hbase