Spark on yarn的作业提交流程

一、YarnClient

二、YarnCluster

三、详细描述

  • 客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job
    ID和资源上传路径,并将这些信息返回给客户端。
  • 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执行请求。
  • ResourceManager收到请求后,将其封装为一个任务,并将其插入Scheduler的任务队列中,等待空闲资源。
  • 一旦集群中有空闲资源,Scheduler将任务分配给NodeManager,NodeManager创建容器,并启动ApplicationMaster。
  • ApplicationMaster启动后,从HDFS中拉取jar包,解析数据流(DAG),根据数据流生成阶段(Stage),确定任务的并发度,并向ResourceManager申请资源。
  • ResourceManager接收到请求后,将任务封装为Task,并将其插入任务队列。
  • 一旦集群中有空闲资源,ResourceManager将任务分配给NodeManager,NodeManager启动容器,并与ApplicationMaster通信,以在容器中启动Executor进程。
  • Executor向ApplicationMaster注册,并申请任务。ApplicationMaster对任务进行解析,并将Task发送到Executor上。
  • Executor执行Task,并将执行结果或状态报告给ApplicationMaster。
  • 当所有任务执行完毕时,ApplicationMaster通知ResourceManager注销应用,回收资源。至此,整个作业的提交流程结束。
相关推荐
码界奇点9 分钟前
Java大数据在智能教育个性化学习资源推荐中的冷启动解决方案
java·大数据·学习·动画·推荐算法
数智化架构师-Aloong16 分钟前
⚡️ PowerJob深度解析:Java生态下高并发分布式调度的终极选择
java·开发语言·分布式·系统架构
TDengine (老段)32 分钟前
一文讲清 TDengine IDMP 资产数据导入
大数据·数据库·ai·时序数据库·tdengine·涛思数据
人大博士的交易之路1 小时前
今日行情明日机会——20251201
大数据·数学建模·数据挖掘·数据分析·缠论·道琼斯结构·涨停板
秋邱1 小时前
技术深耕:教育 AGI 的能力跃迁与安全加固
大数据·人工智能
HAPPY酷1 小时前
技术沟通的底层逻辑:用结构化方法提升协作效率
大数据·人工智能
原神启动11 小时前
云计算大数据——MySQL数据库一(数据库基础与MySQL安装)
大数据·数据库·云计算
a***59262 小时前
RabbitMQ高级特性----生产者确认机制
分布式·rabbitmq
金融小师妹2 小时前
AI视角下黄金避风港属性的量化验证:基于2000-2025年历史数据的时序分析
大数据·人工智能·深度学习·1024程序员节
一笑code2 小时前
git常用命令
大数据·git·elasticsearch