spark基础内容总结

spark是master-worker结构的,master负责资源调度,类似RM,worker掌握所在节点的信息,类似于NM。

执行时候物理结构分为driver-executor,

driver负责执行mian方法,将程序转为job;负责在executor之间调度任务;负责在UI上展示运行情况

executor是一个工作节点,负责在spark作业中运行任务,并返回任务信息给driver,任务键互相独立,通过自身的blockManager为用户应用程序中要求缓存的rdd提供内存式存储,rdd存在executor内,因此运行快。

分别从逻辑结构和物理结构上阐述spark中任务划分方式。

逻辑结构:

job-stage-rdd

1个action算子划分为一个job(例如count)

1个宽依赖划分为一个stage(例如group by 、join 向上合并),1个stage的计算可能被分配到多个task上执行,但是一个task只能计算一个stage的逻辑

1个算子生成一个rdd

1个stage可能有多个rdd组成,具体看算子类型

物理结构:master-worker-driver-executor-task

task是spark的最小执行单元,一个executor可能同时运行多个task

**

spark常见参数设置原则:

**
1.核数设定 set spark.executor.cores=3

cpu核数一般设置为2-4,cores代表的是并行度,一般起码要2以上以充分使用cpu资源的并行特性。

2.内存设定 set spark.executor.memory=12G-20G

内存可根据集群资源情况设定,设定原则是memory/cores=4G,如果遇到部分task spill情况可以适当调整比例值,增加单核分配到的内存以避免spill

3.executor数量设定

set spark.executor.instances=xxx

executor设置原则一般需要根据数据量来确定,数量设置为总数据量/(coresexecutors) =300-500MB
一般来说,可以将 spark.executor.instances 参数值设置为集群中 Worker 节点数量的 2 到 3 倍
**cores
executors 计算的是 Spark 应用程序可以同时运行的 最大 Task 数量**

set spark.sql.shuffle.partitions=100;设置的是shuffle阶段的并行度,但是这个值一般不设定固定,存在数据倾斜时候用以下参数更合适。

一般来说shuffle阶段会设置

set spark.sql.adaptive.shuffle.enabled=true;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=

10GB,具体数值根据计算资源情况以及任务情况设定,最大不能超过单个executor分配的内存容量

argetPostShuffleInputSize参数的作用:

指定了每个 Reducer 读取 Shuffle 输出的目标数据量。

Spark 会尽量将每个分区的输出数据量控制在这个目标值附近,以避免数据倾斜和提高并行度。

对于资源密集型任务,可以适当提高 spark.executor.instances 参数值。

资源密集型任务对 计算资源的利用率 较高,通常需要多个 CPU 核、大量内存和高带宽网络。

相关推荐
网教盟人才服务平台6 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
TDengine (老段)7 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
不懂的浪漫7 小时前
mqtt-plus 架构解析(六):多 Broker 管理,如何让一个应用同时连接多个 MQTT 服务
spring boot·分布式·物联网·mqtt·架构
运维行者_8 小时前
OpManager MSP NetFlow Analyzer集成解决方案,应对多客户端网络流量监控挑战
大数据·运维·服务器·网络·数据库·自动化·运维开发
极创信息12 小时前
信创系统认证服务怎么做?从适配到验收全流程指南
java·大数据·运维·tomcat·健康医疗
小夏子_riotous14 小时前
openstack的使用——5. Swift服务的基本使用
linux·运维·开发语言·分布式·云计算·openstack·swift
大大大大晴天️14 小时前
Flink技术实践-Flink SQL 开发中的隐蔽陷阱
大数据·sql·flink
Gofarlic_OMS15 小时前
Windchill的license合规使用报告自动化生成与审计追踪系统
大数据·运维·人工智能·云原生·自动化·云计算
xcbrand15 小时前
文旅行业品牌策划公司找哪家
大数据·运维·人工智能·python
zxsz_com_cn15 小时前
设备预测性维护故障预警规则与原理解析
大数据·人工智能