Hadoop Yarn

首先先从Yarn 开始讲起,Yarn 是Hadoop架构的资源管理器 ,可以管理 mapreduce程序的资源分配任务调度

Yarn 主要有ResourceManagerNodeManageApplicationMasterContainer

ResourceMange 负责管理全局的资源

NodeManage(NM)负责管理单节点资源和监控任务 ,或者处理 ResourceMange的命令

Applicationmaster 负责用户提交一个任务程序中的一个管理者 ,负责向RM申请 程序运行的资源 ,然后向NodeManage提交需要运行的程序。然后Container是集群资源的抽象,比如内存、CPU。

当客户端提交一个任务YarnRunner 会在某个NM 创建一个AM ,然后AM 将程序运行资源复制到本地节点中。

AM 再根据程序需要运行的Task任务 ,向RM申请资源 ,然后AM将Task分配给NM,NM创建对应的容器,然后最终输出分区文件 ,在TASK运行过程中,NM会向AM汇报任务运行状态,然后AM还会根据MapTask运行的情况,提前申请 运行ReduceTask资源,然后整个程序运行完,AM关闭退出

如果有多个任务 队列,Yarn 还会有自己的资源分配器

相关推荐
Leo.yuan9 分钟前
数据湖是什么?数据湖和数据仓库的区别是什么?
大数据·运维·数据仓库·人工智能·信息可视化
q5673152333 分钟前
分布式增量爬虫实现方案
开发语言·分布式·爬虫·python
hao_wujing1 小时前
基于梯度的中毒攻击
大数据·人工智能
小鸡脚来咯11 小时前
RabbitMQ入门
分布式·rabbitmq
qq_4639448613 小时前
【Spark征服之路-2.2-安装部署Spark(二)】
大数据·分布式·spark
敖云岚13 小时前
【Redis】分布式锁的介绍与演进之路
数据库·redis·分布式
weixin_5051544614 小时前
数字孪生在建设智慧城市中可以起到哪些作用或帮助?
大数据·人工智能·智慧城市·数字孪生·数据可视化
打码人的日常分享14 小时前
智慧城市建设方案
大数据·架构·智慧城市·制造
正在努力Coding14 小时前
kafka(windows)
分布式·kafka
阿里云大数据AI技术16 小时前
ES Serverless 8.17王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」!
大数据·运维·serverless