spark基础内容总结

spark是master-worker结构的,master负责资源调度,类似RM,worker掌握所在节点的信息,类似于NM。

执行时候物理结构分为driver-executor,

driver负责执行mian方法,将程序转为job;负责在executor之间调度任务;负责在UI上展示运行情况

executor是一个工作节点,负责在spark作业中运行任务,并返回任务信息给driver,任务键互相独立,通过自身的blockManager为用户应用程序中要求缓存的rdd提供内存式存储,rdd存在executor内,因此运行快。

分别从逻辑结构和物理结构上阐述spark中任务划分方式。

逻辑结构:

job-stage-rdd

1个action算子划分为一个job(例如count)

1个宽依赖划分为一个stage(例如group by 、join 向上合并),1个stage的计算可能被分配到多个task上执行,但是一个task只能计算一个stage的逻辑

1个算子生成一个rdd

1个stage可能有多个rdd组成,具体看算子类型

物理结构:master-worker-driver-executor-task

task是spark的最小执行单元,一个executor可能同时运行多个task

**

spark常见参数设置原则:

**
1.核数设定 set spark.executor.cores=3

cpu核数一般设置为2-4,cores代表的是并行度,一般起码要2以上以充分使用cpu资源的并行特性。

2.内存设定 set spark.executor.memory=12G-20G

内存可根据集群资源情况设定,设定原则是memory/cores=4G,如果遇到部分task spill情况可以适当调整比例值,增加单核分配到的内存以避免spill

3.executor数量设定

set spark.executor.instances=xxx

executor设置原则一般需要根据数据量来确定,数量设置为总数据量/(coresexecutors) =300-500MB
一般来说,可以将 spark.executor.instances 参数值设置为集群中 Worker 节点数量的 2 到 3 倍
**cores
executors 计算的是 Spark 应用程序可以同时运行的 最大 Task 数量**

set spark.sql.shuffle.partitions=100;设置的是shuffle阶段的并行度,但是这个值一般不设定固定,存在数据倾斜时候用以下参数更合适。

一般来说shuffle阶段会设置

set spark.sql.adaptive.shuffle.enabled=true;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=

10GB,具体数值根据计算资源情况以及任务情况设定,最大不能超过单个executor分配的内存容量

argetPostShuffleInputSize参数的作用:

指定了每个 Reducer 读取 Shuffle 输出的目标数据量。

Spark 会尽量将每个分区的输出数据量控制在这个目标值附近,以避免数据倾斜和提高并行度。

对于资源密集型任务,可以适当提高 spark.executor.instances 参数值。

资源密集型任务对 计算资源的利用率 较高,通常需要多个 CPU 核、大量内存和高带宽网络。

相关推荐
听你说3220 分钟前
科技护航极限征程 三诺生物助力雄关330长城越野赛
大数据·科技·健康医疗
电商API_1800790524733 分钟前
bilibili关键字搜索视频列表|获取视频详情API调用示例
大数据·数据挖掘·网络爬虫·音视频
数智顾问4 小时前
(151页PPT)XX集团信息化整体架构规划及ERP方案建议书(附下载方式)
大数据·架构
天行健,君子而铎4 小时前
2026年通用行业数据分类分级产品排名——聚焦成本低、全链路覆盖与高性能计算的优质选型
大数据·数据库·人工智能
财经资讯数据_灵砚智能4 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
电商API_180079052475 小时前
Python 实现闲鱼商品列表批量采集,接口异常重试机制搭建
大数据·开发语言·数据库·爬虫·python
Java 码思客5 小时前
【ElasticSearch从入门到架构师】第3章:ES 核心基础概念(架构师必备底层认知)
大数据·elasticsearch·jenkins
德昂信息dataondemand6 小时前
BI项目中的主数据管理:如何确保跨部门数据一致性?
大数据
申通之声6 小时前
以体验和AI重构竞争力,申通要“构建生态共同体”
大数据·网络·人工智能·重构·交通物流
terry6006 小时前
2026图形验证码服务商横向测评|口碑、接入、安全选型全指南
java·大数据·人工智能·web安全·信息与通信·数据库架构