yarn中内部封装的submit()方法

梦里不知身是客112025-12-11 10:35

在Yarn框架中，submit()方法通常指计算框架（如Spark、Flink等）通过Yarn客户端提交应用程序的入口点。以下是关键解析：

一、核心流程

资源申请

客户端通过submit()向ResourceManager申请资源，提交参数包括：
- 应用所需资源（如内存、CPU核数）
- 应用主程序（ApplicationMaster）的启动命令
- 依赖的JAR包及配置文件
应用启动

ResourceManager分配Container后，在首个Container中启动ApplicationMaster： $$ \text{Container}_0 \xrightarrow{\text{launch}} \text{ApplicationMaster} $$
任务调度

ApplicationMaster向ResourceManager申请执行任务的Container资源，并管理任务生命周期。

二、Spark on Yarn示例

复制代码

# 伪代码逻辑
def submit():
    # 1. 构建Yarn客户端
    yarn_client = YarnClient.create()
    
    # 2. 配置应用参数
    app_context = ApplicationSubmissionContext(
        app_name="SparkApp",
        resource=Resource(memory=1024, vcores=2),
        main_class="org.apache.spark.deploy.yarn.ApplicationMaster"
    )
    
    # 3. 提交应用
    app_id = yarn_client.submitApplication(app_context)
    return app_id

三、关键参数说明

参数类型	示例值	作用
`--queue`	`production`	指定Yarn队列
`--num-executors`	`10`	执行器数量
`--executor-memory`	`4g`	单个执行器内存
`--class`	`com.example.Main`	主应用程序类

四、注意事项

资源超限

需确保请求资源不超过队列配额： $$ \sum \text{Executor内存} \leq \text{队列最大内存} $$
依赖传递

使用--jars参数传递依赖包：
复制代码
```
spark-submit --jars hdfs:///libs/mylib.jar ...
```

不同计算框架对submit()的封装细节可能略有差异，但均遵循Yarn应用提交规范。具体实现需参考对应框架文档。