Hadoop三大组件之YARN（一）

YARN架构与任务提交流程详解

YARN（Yet Another Resource Negotiator）是Hadoop生态系统中的一个重要组成部分，主要用于资源管理和调度。YARN的架构主要由以下几个关键组件构成：

ResourceManager是YARN的核心组件，负责整个集群的资源管理和调度。其主要职责包括：

资源调度：接收来自客户端程序提交的请求，根据资源需求分配容器（Container）。
监控集群资源使用情况：实时监控集群中资源的使用状态。
主要子组件 ：
- 调度器（Scheduler）：根据资源需求和调度策略分配Container。
- 应用程序管理器（ApplicationManager）：负责管理应用程序的生命周期，从启动到完成的全过程。

NodeManager负责单个节点上的资源管理。每个节点上运行一个NodeManager，主要功能包括：

每个应用程序都有一个独立的ApplicationMaster，负责：

Container是YARN中任务运行的基本单位，主要特点包括：

YARN的任务提交流程主要分为以下几个步骤：

用户通过客户端向ResourceManager提交作业，包括应用程序代码和所需资源的定义。

ResourceManager收到作业提交请求后，分配一个初始Container来启动ApplicationMaster。

ApplicationMaster在分配的Container中启动，并向ResourceManager进行注册，确认其身份。

ApplicationMaster根据任务需求向ResourceManager申请更多运行任务所需的Container。

ResourceManager根据集群的资源情况，分配所需的Container，并通知ApplicationMaster。

ApplicationMaster与NodeManager进行通信，启动任务Container。

任务在分配的Container中执行，完成后将结果反馈给ApplicationMaster。

ApplicationMaster向ResourceManager报告作业完成，并释放资源，确保资源的高效利用。

YARN的调度器是资源分配的核心，根据不同的需求提供多种调度策略：

公平调度器：支持多个队列，每个队列配置一定的资源，确保每个队列中的任务公平共享资源。任务优先级越高，分配到的资源也越多，确保每个任务都能获得足够的资源。