spark运行流程

spark运行流程

  1. 任务提交后,先启动 Driver 程序
  2. 随后 Driver 向集群管理器注册应用程序
  3. 集群管理器根据此任务的配置文件分配 Executor 并启动
  4. Driver 开始执行 main 函数,Spark 查询为懒执行,当执行到 Action 算子时开始反向推
    算,根据宽依赖进行 Stage 的划分,随后每一个 Stage 对应一个 Taskset,Taskset 中有多个 Task
  5. 查找可用资源 Executor 进行调度
  6. 根据本地化原则,Task 会被分发到指定的 Executor 去执行
  7. 任务执行的过程中,Executor 也会不断与 Driver 进行通信,报告任务运行情况
    进行通信,报告任务运行情况
相关推荐
isNotNullX38 分钟前
什么是数据清洗?数据清洗有哪些步骤?
大数据·数据库·数据仓库·数据治理·元数据
打码人的日常分享3 小时前
智慧园区建设资料合集(Wordppt原件)
大数据·物联网·流程图·智慧城市·制造
洗发水很好用3 小时前
制造部门的转型目标与场景痛点
大数据·数据库·制造
掘金-我是哪吒5 小时前
分布式微服务系统架构第148集:JavaPlus技术文档平台日更
分布式·微服务·云原生·架构·系统架构
JavaGPT5 小时前
Kafka 4.0.0集群部署
分布式·kafka
bug菌5 小时前
一致性设计选择:不同业务场景下,如何做“取舍”?
分布式·后端·架构
API_technology6 小时前
亚马逊 API 实战:商品详情页实时数据采集接口开发与调用
大数据·开发语言·python·数据挖掘
lilye6611 小时前
精益数据分析(101/126):SaaS商业模式优化与用户生命周期价值提升策略
大数据·数据挖掘·数据分析
isfox1 天前
Hadoop 版本进化论:从 1.0 到 2.0,架构革命全解析
大数据·后端
星环科技TDH社区版1 天前
星环科技产品可存储的表格式功能介绍以及创建示例
大数据·数据库