SparkCore编程RDD

十七✧ᐦ̤2023-10-15 18:04

RDD概述

中文名为弹性分布式数据集，是数据处理基本单位。代表一个弹性的，不可变，可分区，里面的数据可并行计算的集合。

RDD和Hadoop MR 的区别：

RDD是先明确数据处理流程，数据在行动算子执行前实际上并未被修改
MR本质上是摸石头过河，每一步操作时，数据本体已经被修改了，无法恢复。

RDD特性：

一组分区：标记数据是哪个分区的
一个计算每个分区的函数
RDD之间的依赖关系
一个分区器：即RDD的分片函数
一个优先列表：移动数据不如移动计算

Spark编程

RDD的创建

使用IDEA创建一个spark项目
添加spark-core_2.12依赖，版本3.3.1
在setting-plugins搜索Scala插件，方便查询Scala代码
如果代码出现winutils找不到异常时，需要配置一下windows对于Hadoop的依赖
开始编程
- 创建RDD_init的class文件，定义main方法
- new JavaSparkContext(), 设置SparkConf().setMaster("local[*]").setAppName("rdd");得到sc
- sc获取RDD的方法
  - textFile(文件路径)
  - parallelize(list集合)

分区

为了能够看到分区的情况，不使用collect收集，而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]代表并行度，也会影响文件的数量，这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量，而不影响分区的上限。

内存数据分区策略：如果数据个数无法被分区数整除，多出来的数据优先分配给后面的分区。

scala 复制代码

def positions()={
	val start = ((下标*数据个数)/分区数).toInt
	val end = ((下标+1)* 数据个数/ 分区数).toInt
}

从集合获取数据时，负载均衡，尽量保证每个分区的数据数量是一致的，后面的分区的数据会比前面的多。

MR和spark的切分区别：

MR希望每个任务跑到数据量级尽量多，因为MR底层是单线程多进程的，并发没有那么方便。
spark希望跑到任务尽量多，即负载均衡，并发量高，因为spark底层是多进程多线程的。

文件数据分区策略：分区数量最低为2，最高为环境CPU数量。分区数量根据文件大小来计算得出，跟MR切片规则很类似。大致是这样：

goalS ize = 文件大小（字节） / 分区数量，最小为1
分区数量 = 文件大小 / goalSize

上一篇：数据结构面试常问问题--保研及考研复试

下一篇：【Linux】多线程

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）