Hadoop Yarn

首先先从Yarn 开始讲起,Yarn 是Hadoop架构的资源管理器 ,可以管理 mapreduce程序的资源分配任务调度

Yarn 主要有ResourceManagerNodeManageApplicationMasterContainer

ResourceMange 负责管理全局的资源

NodeManage(NM)负责管理单节点资源和监控任务 ,或者处理 ResourceMange的命令

Applicationmaster 负责用户提交一个任务程序中的一个管理者 ,负责向RM申请 程序运行的资源 ,然后向NodeManage提交需要运行的程序。然后Container是集群资源的抽象,比如内存、CPU。

当客户端提交一个任务YarnRunner 会在某个NM 创建一个AM ,然后AM 将程序运行资源复制到本地节点中。

AM 再根据程序需要运行的Task任务 ,向RM申请资源 ,然后AM将Task分配给NM,NM创建对应的容器,然后最终输出分区文件 ,在TASK运行过程中,NM会向AM汇报任务运行状态,然后AM还会根据MapTask运行的情况,提前申请 运行ReduceTask资源,然后整个程序运行完,AM关闭退出

如果有多个任务 队列,Yarn 还会有自己的资源分配器

相关推荐
汤姆yu25 分钟前
基于大数据的出行方式推荐系统
大数据·出行方式推荐
bigdata-rookie1 小时前
Spark 部署模式
大数据·分布式·spark
芝麻开门-新起点1 小时前
贝壳GIS数据存储与房屋3D展示技术解析
大数据
玖日大大2 小时前
Gemini 3 全维度技术解析:从认知到落地实战指南
大数据
蒋士峰DBA修行之路3 小时前
实验二十二 GaussDB分布式场景调优
分布式·gaussdb
yumgpkpm5 小时前
数据可视化AI、BI工具,开源适配 Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐?
人工智能·hive·hadoop·信息可视化·kafka·开源·hbase
little_xianzhong5 小时前
把一个本地项目导入gitee创建的仓库中
大数据·elasticsearch·gitee
青靴6 小时前
轻量级 CI/CD 实战(三):Kafka消费者Docker容器化部署
分布式·docker·kafka
galaxyffang6 小时前
RocketMQ 为什么性能不如 Kafka?
分布式·kafka·rocketmq