spark知识点总结(1)

Spark(web:默认值是8080,但是这个端口号容易被占用,顺势+1;提交任务端口号:7077)

一、RDD

RDD是spark最底层的核心抽象,叫做弹性分布式数据集。

特点:不可变,可分区,里面的元素可以并行计算的集合。

二、lineage(血统)

RDD与RDD之间的依赖关系,依赖的就是血统。

三、DAG有向无环图

本质上描述的就是RDD的执行流程。

四、依赖关系

在spark当中,依赖关系分为两类:一类是窄依赖(NarrowDependency);一类叫做宽依赖(ShuffleDependency)。

窄依赖:父RDD当中的一个分区只能被子RDD当中的一个分区所依赖。类似于独生子女。

宽依赖:父RDD当中的一个分区会被子RDD当中的多个分区所依赖。类似于超生子女。

五、代码当中的本地模式

local:表示本地开启一个线程模拟集群运行。

local[N]:N代表的是一个具体的数,表示本地开始N个线程模拟集群运行。

local[*]:表示本地有多大资源就用多大资源去模拟运行。

六、函数式编程算子

map:映射。针对列表当中的每一个元素进行操作,操作完成后返回一个新的列表,操作之前是多少个元素,操作之后还是多少个元素,不会增加,不会减少。

七、分区方式

spark当中一共有两种分区方式:一种是hash,一种是range。

非key,value对的数据分区方式为None;key,value对的数据分区方式默认也为None,但是可以指定分区方式。

相关推荐
XXX-X-XXJ3 分钟前
三、从 MinIO 存储到 OCR 提取,再到向量索引生成
人工智能·后端·python·ocr
EkihzniY6 分钟前
医疗发票 OCR 识别:打通医疗费用处理 “堵点” 的技术助手
大数据·人工智能·ocr
该用户已不存在10 分钟前
7个没听过但很好用的Mac工具
后端·开源
码事漫谈14 分钟前
如何设置 Visual Studio 在调试停止时自动关闭控制台
后端
码事漫谈16 分钟前
函数封装的平衡艺术:以C++为例探讨适度封装
后端
hello 早上好26 分钟前
深入 Spring 条件化配置底层:从硬编码到通用注解的实现原理
java·后端·spring
亚林瓜子32 分钟前
Spring中Date日期序列化与反序列化中格式设置
java·后端·spring·jackson·date
乐迪信息1 小时前
乐迪信息:智慧煤矿输送带安全如何保障?AI摄像机全天候识别
大数据·运维·人工智能·安全·自动化·视觉检测
阿里云大数据AI技术1 小时前
云栖实录|人工智能+大数据平台加速企业模型后训练
大数据·人工智能
B站_计算机毕业设计之家2 小时前
数据分析:Python懂车帝汽车数据分析可视化系统 爬虫(Django+Vue+销量分析 源码+文档)✅
大数据·爬虫·python·数据分析·汽车·可视化·懂车帝