hadoop

  1. Hadoop 的三大结构及各自的作用

• HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)

◦ 作用:提供高可靠、高吞吐量的海量数据存储服务。它将数据分块存储在不同节点上,支持大规模数据集的存储,具备良好的容错性,某个节点故障时不影响整体数据访问,适合一次写入、多次读取的大数据存储场景 。

• MapReduce

◦ 作用:是一种分布式计算模型,用于大规模数据集的并行计算。它将复杂的计算任务拆分为 Map(映射)和 Reduce(归约)两个阶段,Map 阶段对数据进行并行处理,Reduce 阶段对 Map 结果进行汇总计算,能高效处理海量数据的运算,如日志分析、数据挖掘等任务 。

• YARN(Yet Another Resource Negotiator,另一种资源协调者 )

◦ 作用:负责集群资源的统一管理和调度。它为上层应用提供统一的资源管理和调度平台,可根据应用需求动态分配 CPU、内存等资源,提高集群资源利用率,支持多种计算框架在集群上运行。

  1. YARN 的定义

YARN 是 Hadoop 中的资源管理和调度框架,它将资源管理和作业调度 / 监控功能分离,为集群中运行的各种应用程序(如 MapReduce、Spark 等)提供统一的资源管理和调度服务,使集群资源能更高效、灵活地被使用。

  1. YARN 的三大组件及各自的作用

• ResourceManager(RM,资源管理器)

◦ 作用:负责整个集群的资源管理和分配,是 YARN 的全局资源管理器。它接收来自各个节点的资源汇报,监控集群资源使用情况,并根据应用程序的资源请求,按照一定的调度策略分配资源给 ApplicationMaster 。

• NodeManager(NM,节点管理器)

◦ 作用:运行在每个计算节点上,负责管理本节点的资源(CPU、内存等)和容器(Container)。它接收 ResourceManager 的指令,启动或停止容器,监控容器资源使用情况并向 ResourceManager 汇报。

• ApplicationMaster(AM,应用程序管理器)

◦ 作用:每个应用程序对应一个 ApplicationMaster,负责与 ResourceManager 协商获取资源,与 NodeManager 通信以启动和监控任务容器。它还负责应用程序的生命周期管理,包括任务的监控、容错处理等 。

  1. YARN 的三个资源调度策略

• FIFO(First In First Out,先进先出)

◦ 原理:按照应用程序提交的顺序,先提交的应用先获得资源调度。

◦ 适用场景:适用于集群负载较低、应用对公平性要求不高的场景,简单直观,适合作业较少且无优先级区分的情况 。

• Capacity Scheduler(容量调度器)

◦ 原理:允许多个队列存在,每个队列可设置一定的资源容量(如内存、CPU 比例)。队列内采用 FIFO 调度,同时支持为不同队列设置不同优先级,可根据应用需求动态调整队列资源分配。

◦ 适用场景:适用于多用户、多应用共享集群的场景,能保证每个用户或应用类别有一定的资源份额,实现资源的合理分配,兼顾公平性和灵活性 。

• Fair Scheduler(公平调度器)

◦ 原理:其目标是让所有应用程序随着时间推移都能获取大致公平的资源。当集群有空闲资源时,会将资源分配给资源使用较少的应用,实现应用间资源的动态平衡。

◦ 适用场景:适用于对资源公平性要求较高的场景,多个应用程序竞争资源时,能尽量保证每个应用都有机会获得足够资源,避免资源过度倾斜 。

相关推荐
段一凡-华北理工大学25 分钟前
工业领域的Hadoop架构学习~系列文章24:adoop工业应用总结与展望 - 技术路线图与最佳实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章23:物流行业Hadoop应用实践 - 智能物流的数字化引擎
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
奇点爆破XC21 小时前
Hadoop大数据生态(Ambari管理)组件服务详解
大数据·hadoop·ambari
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章22:Hadoop生态展望 - 面向未来的技术演进
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
Nefu_lyh1 天前
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数
数据仓库·hive·hadoop
知识分享小能手1 天前
Hadoop学习教程,从入门到精通, HDFS分布式文件系统 — 完整知识点与案例代码(3)
hadoop·学习·hdfs
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章20:故障诊断与根因分析 - 从表象到本质的智能推理
大数据·人工智能·hadoop·学习·架构·高炉炼铁·工业智能体
Francek Chen2 天前
【大数据处理与分析】MapReduce:05 MapReduce的具体应用
大数据·hadoop·分布式·mapreduce
知识分享小能手2 天前
Hadoop学习教程,从入门到精通, 部署Hadoop 3.x — 知识点详解(2)
大数据·hadoop·学习
AQin10122 天前
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
数据仓库·hive·hadoop·doris