Hadoop Yarn

首先先从Yarn 开始讲起,Yarn 是Hadoop架构的资源管理器 ,可以管理 mapreduce程序的资源分配任务调度

Yarn 主要有ResourceManagerNodeManageApplicationMasterContainer

ResourceMange 负责管理全局的资源

NodeManage(NM)负责管理单节点资源和监控任务 ,或者处理 ResourceMange的命令

Applicationmaster 负责用户提交一个任务程序中的一个管理者 ,负责向RM申请 程序运行的资源 ,然后向NodeManage提交需要运行的程序。然后Container是集群资源的抽象,比如内存、CPU。

当客户端提交一个任务YarnRunner 会在某个NM 创建一个AM ,然后AM 将程序运行资源复制到本地节点中。

AM 再根据程序需要运行的Task任务 ,向RM申请资源 ,然后AM将Task分配给NM,NM创建对应的容器,然后最终输出分区文件 ,在TASK运行过程中,NM会向AM汇报任务运行状态,然后AM还会根据MapTask运行的情况,提前申请 运行ReduceTask资源,然后整个程序运行完,AM关闭退出

如果有多个任务 队列,Yarn 还会有自己的资源分配器

相关推荐
roman_日积跬步-终至千里42 分钟前
【分布式理论13】分布式存储:数据存储难题与解决之道
分布式
(; ̄ェ ̄)。2 小时前
在Nodejs中使用kafka(三)offset偏移量控制策略,数据保存策略
分布式·后端·kafka·node.js
binbinxyz3 小时前
【Kafka系列】Kafka 消息传递保障机制
分布式·kafka
vx153027823624 小时前
CDGA|企业数据治理实战:从疏通“信息河”到打造优质“数据湖”
java·大数据·人工智能·cdga·数据治理
T.O.P115 小时前
分布式ID介绍&实现方案总结
分布式
AIRIOT5 小时前
AIRIOT智慧消防管理解决方案
大数据
Golinie5 小时前
【Go | 从0实现简单分布式缓存】-1:LRU缓存淘汰策略与单机并发缓存
分布式·缓存·golang
哔哩哔哩技术6 小时前
ClickHouse BSI与字典服务在B站商业化DMP中的应用实践
大数据
想做富婆7 小时前
数仓搭建(hive):DM搭建(数据集市层)
大数据·数仓搭建