Hadoop Yarn

首先先从Yarn 开始讲起,Yarn 是Hadoop架构的资源管理器 ,可以管理 mapreduce程序的资源分配任务调度

Yarn 主要有ResourceManagerNodeManageApplicationMasterContainer

ResourceMange 负责管理全局的资源

NodeManage(NM)负责管理单节点资源和监控任务 ,或者处理 ResourceMange的命令

Applicationmaster 负责用户提交一个任务程序中的一个管理者 ,负责向RM申请 程序运行的资源 ,然后向NodeManage提交需要运行的程序。然后Container是集群资源的抽象,比如内存、CPU。

当客户端提交一个任务YarnRunner 会在某个NM 创建一个AM ,然后AM 将程序运行资源复制到本地节点中。

AM 再根据程序需要运行的Task任务 ,向RM申请资源 ,然后AM将Task分配给NM,NM创建对应的容器,然后最终输出分区文件 ,在TASK运行过程中,NM会向AM汇报任务运行状态,然后AM还会根据MapTask运行的情况,提前申请 运行ReduceTask资源,然后整个程序运行完,AM关闭退出

如果有多个任务 队列,Yarn 还会有自己的资源分配器

相关推荐
深蓝电商API17 小时前
Scrapy + Scrapy-Redis 分布式爬虫集群部署(2025 最新版)
redis·分布式·scrapy
Hello.Reader17 小时前
在 YARN 上跑 Flink CDC从 Session 到 Yarn Application 的完整实践
大数据·flink
Learn Beyond Limits17 小时前
Data Preprocessing|数据预处理
大数据·人工智能·python·ai·数据挖掘·数据处理
Sinowintop18 小时前
易连EDI-EasyLink无缝集成之消息队列Kafka
分布式·网络协议·kafka·集成·国产化·as2·国产edi
心止水j18 小时前
hive分区
数据仓库·hive·hadoop
心止水j18 小时前
Hive 桶表的创建、数据导入、查询与导出
数据仓库·hive·hadoop
玩转以太网18 小时前
W55MH32 单芯片以太网方案:破解分布式 IO 三大痛点
分布式·物联网
放学有种别跑、18 小时前
GIT使用指南
大数据·linux·git·elasticsearch
gAlAxy...19 小时前
SpringMVC 响应数据和结果视图:从环境搭建到实战全解析
大数据·数据库·mysql
ganqiuye19 小时前
向ffmpeg官方源码仓库提交patch
大数据·ffmpeg·video-codec