Spark on yarn的作业提交流程

一、YarnClient

二、YarnCluster

三、详细描述

  • 客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job
    ID和资源上传路径,并将这些信息返回给客户端。
  • 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执行请求。
  • ResourceManager收到请求后,将其封装为一个任务,并将其插入Scheduler的任务队列中,等待空闲资源。
  • 一旦集群中有空闲资源,Scheduler将任务分配给NodeManager,NodeManager创建容器,并启动ApplicationMaster。
  • ApplicationMaster启动后,从HDFS中拉取jar包,解析数据流(DAG),根据数据流生成阶段(Stage),确定任务的并发度,并向ResourceManager申请资源。
  • ResourceManager接收到请求后,将任务封装为Task,并将其插入任务队列。
  • 一旦集群中有空闲资源,ResourceManager将任务分配给NodeManager,NodeManager启动容器,并与ApplicationMaster通信,以在容器中启动Executor进程。
  • Executor向ApplicationMaster注册,并申请任务。ApplicationMaster对任务进行解析,并将Task发送到Executor上。
  • Executor执行Task,并将执行结果或状态报告给ApplicationMaster。
  • 当所有任务执行完毕时,ApplicationMaster通知ResourceManager注销应用,回收资源。至此,整个作业的提交流程结束。
相关推荐
那就学有所成吧(˵¯͒¯͒˵)19 小时前
大数据项目(一):Hadoop 云网盘管理系统开发实践
大数据·hadoop·分布式
KKKlucifer19 小时前
数据资产地图构建:文档安全可视化与主动防御
大数据·安全
2501_9436953320 小时前
高职工业大数据应用专业,怎么找智能制造企业的数据岗?
大数据·信息可视化·制造
得赢科技20 小时前
智能菜谱研发公司推荐 适配中小型餐饮
大数据·运维·人工智能
Hello.Reader21 小时前
Flink 内存与资源调优从 Process Memory 到 Fine-Grained Resource Management
大数据·flink
有代理ip1 天前
成功请求的密码:HTTP 2 开头响应码深度解析
java·大数据·python·算法·php
jl48638211 天前
打造医疗设备的“可靠视窗”:医用控温仪专用屏从抗菌设计到EMC兼容的全链路解析
大数据·运维·人工智能·物联网·人机交互
刺客xs1 天前
git 入门常用命令
大数据·git·elasticsearch
risc1234561 天前
【Elasticsearch】LeafDocLookup 详述
大数据·elasticsearch·mybatis
qq_12498707531 天前
基于协同过滤算法的运动场馆服务平台设计与实现(源码+论文+部署+安装)
java·大数据·数据库·人工智能·spring boot·毕业设计·计算机毕业设计