Hadoop Yarn

首先先从Yarn 开始讲起,Yarn 是Hadoop架构的资源管理器 ,可以管理 mapreduce程序的资源分配任务调度

Yarn 主要有ResourceManagerNodeManageApplicationMasterContainer

ResourceMange 负责管理全局的资源

NodeManage(NM)负责管理单节点资源和监控任务 ,或者处理 ResourceMange的命令

Applicationmaster 负责用户提交一个任务程序中的一个管理者 ,负责向RM申请 程序运行的资源 ,然后向NodeManage提交需要运行的程序。然后Container是集群资源的抽象,比如内存、CPU。

当客户端提交一个任务YarnRunner 会在某个NM 创建一个AM ,然后AM 将程序运行资源复制到本地节点中。

AM 再根据程序需要运行的Task任务 ,向RM申请资源 ,然后AM将Task分配给NM,NM创建对应的容器,然后最终输出分区文件 ,在TASK运行过程中,NM会向AM汇报任务运行状态,然后AM还会根据MapTask运行的情况,提前申请 运行ReduceTask资源,然后整个程序运行完,AM关闭退出

如果有多个任务 队列,Yarn 还会有自己的资源分配器

相关推荐
迎仔几秒前
09-消息队列Kafka介绍:大数据世界的“物流枢纽”
大数据·分布式·kafka
不会代码的小测试6 分钟前
UI自动化-Grid分布式运行
运维·分布式·python·selenium·自动化
Vivienne_ChenW10 分钟前
Apollo 配置中心核心用法(实战版)
java·开发语言·分布式·阿里云·产品运营
自可乐11 分钟前
Ray分布式AI计算框架完整学习教程
人工智能·分布式·机器翻译
BYSJMG11 分钟前
大数据分析案例:基于大数据的肺癌数据分析与可视化系统
java·大数据·vue.js·python·mysql·数据分析·课程设计
小邓睡不饱耶2 小时前
基于Spark GraphX构建用户信任网络:精准定位高价值目标用户
大数据·spark·php
编程彩机11 小时前
互联网大厂Java面试:从Java SE到大数据场景的技术深度解析
java·大数据·spring boot·面试·spark·java se·互联网大厂
不是很大锅11 小时前
卸载TDengine
大数据·时序数据库·tdengine
qyr678912 小时前
深度解析:3D细胞培养透明化试剂供应链与主要制造商分布
大数据·人工智能·3d·市场分析·市场报告·3d细胞培养·细胞培养
2501_9449347313 小时前
工业大数据方向,CDA证书和工业数据工程师证哪个更实用?
大数据