spark知识点总结(1)

Spark(web:默认值是8080,但是这个端口号容易被占用,顺势+1;提交任务端口号:7077)

一、RDD

RDD是spark最底层的核心抽象,叫做弹性分布式数据集。

特点:不可变,可分区,里面的元素可以并行计算的集合。

二、lineage(血统)

RDD与RDD之间的依赖关系,依赖的就是血统。

三、DAG有向无环图

本质上描述的就是RDD的执行流程。

四、依赖关系

在spark当中,依赖关系分为两类:一类是窄依赖(NarrowDependency);一类叫做宽依赖(ShuffleDependency)。

窄依赖:父RDD当中的一个分区只能被子RDD当中的一个分区所依赖。类似于独生子女。

宽依赖:父RDD当中的一个分区会被子RDD当中的多个分区所依赖。类似于超生子女。

五、代码当中的本地模式

local:表示本地开启一个线程模拟集群运行。

localN:N代表的是一个具体的数,表示本地开始N个线程模拟集群运行。

local\*:表示本地有多大资源就用多大资源去模拟运行。

六、函数式编程算子

map:映射。针对列表当中的每一个元素进行操作,操作完成后返回一个新的列表,操作之前是多少个元素,操作之后还是多少个元素,不会增加,不会减少。

七、分区方式

spark当中一共有两种分区方式:一种是hash,一种是range。

非key,value对的数据分区方式为None;key,value对的数据分区方式默认也为None,但是可以指定分区方式。

相关推荐
AC赳赳老秦4 分钟前
OpenClaw+Power Apps 实战:自动生成 Power Apps 应用、连接 Excel 数据源
大数据·开发语言·python·serverless·excel·deepseek·openclaw
提笔了无痕6 分钟前
如何用Go实现整套RAG流程
开发语言·后端·golang
成都第一深情IZZO22 分钟前
事务未提交就发送 MQ,导致消费者读不到订单数据的问题
后端
大橙子打游戏31 分钟前
Fable5不能用了,但是依然能让 AI 纯靠截图玩通宝可梦
后端
Jason_chen37 分钟前
Linux 3.0 总线机制与故障排查详解
后端
keke.shengfengpolang42 分钟前
数据科学与大数据技术和大数据管理与应用怎么抉择?
大数据
成都第一深情IZZO1 小时前
Spring Boot 动态数据源在事务中切库失效问题排查
后端
_遥远的救世主_1 小时前
稳定性工程:SLO 量化、降级收敛与故障兜底体系
后端
_遥远的救世主_1 小时前
多区域架构:边缘节点、核心节点与跨区域写冲突
后端
ServBay1 小时前
你跟高级 C# 工程师的区别,就是这8个开发技巧
后端·c#·.net