五、YARN

YARN

YARN

yarn是下一代MapReduce(借助了面向函数式编程 面向对象 --> new对象 --> 对象操作 面向函数编程 对象都是实例化 --> 函数(有返回值的方法)的实现 计算模型 --> 它的写法是固定的 你就按照流程写 然后hadoop就能帮你实现计算过程 继承 Configured 实现 Tool --> ToolRunner ),即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的,通俗讲是资源管理器的。

HDFS --> 管理hadoop的硬盘

YARN --> 管理的hadoop的内存和cpu

HADOOP --> 是一台电脑

HADOOP 这台电脑的可执行程序 --> MapReduce --> 拿HDFS 数据 --> 通过YRAN分配非它的内存和CPU进行数据计算

其核心思想:将MR1中资源管理和作业调用两个功能分开,分别由ResourceManager和ApplicationMaster进程来实现。

1)ResourceManager :负责整个集群的资源管理和调度;任务(MapReduce wordcount) 资源

2)ApplicationMaster :负责应用程序相关事务,比如任务调度、任务监控和容错等。任务

相关推荐
成长之路5147 小时前
【数据集】A股上市公司数字投资数据集-含代码(2000-2024年)
大数据
jkyy20147 小时前
破局家电同质化:智能冰箱+主动健康,解锁家庭健康新赛道
大数据·人工智能·健康医疗
weiyvyy8 小时前
信息化系统建设规划篇——蓝图设计与路径规划
大数据·信息可视化·信息化系统·企业信息化核心业务模块·信息化建设
相信神话20218 小时前
第零章:新手的第一课:正确认知游戏开发
大数据·数据库·算法·2d游戏编程·godot4·2d游戏开发
KeepSeek8 小时前
大数据运维(1)
大数据·运维
黄焖鸡能干四碗9 小时前
业务数据中台技术方案(PPT)
大数据·数据库·人工智能·安全·需求分析
潘达斯奈基~9 小时前
Spark踩坑:如何优化pandas_udf中的多维数组传输效率
大数据·spark·pandas
Coder_Boy_10 小时前
分布式系统核心技术完整梳理(含分库分表、分布式事务、熔断补偿)
jvm·分布式·spring·中间件
AI_Auto11 小时前
【人工智能】- OpenClaw本地化安装
大数据·人工智能·机器学习·数据挖掘
我爱学习好爱好爱11 小时前
Logstash 数据管道测试案例:从 Filebeat 接收日志并输出至黑屏幕与 Elasticsearch(基于Rocky Linux 9.6)
大数据·linux·elasticsearch