spark知识点总结(1)

Spark(web:默认值是8080,但是这个端口号容易被占用,顺势+1;提交任务端口号:7077)

一、RDD

RDD是spark最底层的核心抽象,叫做弹性分布式数据集。

特点:不可变,可分区,里面的元素可以并行计算的集合。

二、lineage(血统)

RDD与RDD之间的依赖关系,依赖的就是血统。

三、DAG有向无环图

本质上描述的就是RDD的执行流程。

四、依赖关系

在spark当中,依赖关系分为两类:一类是窄依赖(NarrowDependency);一类叫做宽依赖(ShuffleDependency)。

窄依赖:父RDD当中的一个分区只能被子RDD当中的一个分区所依赖。类似于独生子女。

宽依赖:父RDD当中的一个分区会被子RDD当中的多个分区所依赖。类似于超生子女。

五、代码当中的本地模式

local:表示本地开启一个线程模拟集群运行。

local[N]:N代表的是一个具体的数,表示本地开始N个线程模拟集群运行。

local[*]:表示本地有多大资源就用多大资源去模拟运行。

六、函数式编程算子

map:映射。针对列表当中的每一个元素进行操作,操作完成后返回一个新的列表,操作之前是多少个元素,操作之后还是多少个元素,不会增加,不会减少。

七、分区方式

spark当中一共有两种分区方式:一种是hash,一种是range。

非key,value对的数据分区方式为None;key,value对的数据分区方式默认也为None,但是可以指定分区方式。

相关推荐
苏三的开发日记几秒前
如何规避死锁
后端
该用户已不存在3 分钟前
用 Claude Code Agents 与 CI/CD 搭建自动化研发团队(Part 3)
后端·ai编程·claude
豹哥学前端6 分钟前
agent智能体经典范式构建
人工智能·后端
LaughingZhu15 分钟前
Product Hunt 每日热榜 | 2026-05-12
大数据·人工智能·经验分享·神经网络·产品运营
eastyuxiao23 分钟前
数字孪生(Digital Twin)从入门到实战教程
大数据·人工智能·数字孪生
皮皮学姐分享-ppx24 分钟前
上市公司数字技术风险暴露数据(2010-2024)|《经济研究》同款大模型测算
大数据·网络·数据库·人工智能·chatgpt·制造
胡志辉1 小时前
邮件中点击“加载图片”,你的IP地址已经被泄漏
前端·后端·安全
数字会议深科技1 小时前
政务表决会议升级方案解析|多形态大型表决系统融合方案科普
大数据·人工智能·政务·无纸化·会议厂商·ai会议生态服务商·表决系统
互联网科技看点1 小时前
泛微・齐业成核心优势深度解析:数智化费控管理标杆
大数据·人工智能·云计算
拽着尾巴的鱼儿1 小时前
spring 动态代理
java·后端·spring