Hadoop生态圈中的各个组件的介绍

hdfs

namenode

  • 维护目录树,维护命名空间。
  • 负责确定指定的文件块到具体的Datanode结点的映射关系。(在客户端与Datanode之间共享数据)
  • 管理Datanode结点的状态报告

datanode

  • 负责管理它所在结点上存储的数据的读写,及存储数据。
  • 向Namenode结点报告DataNode节点的状态。
  • 通过流水线复制实现数据副本。

Standby NameNode

Standby NameNode只是作为Active NameNode的备份,保证在Active NameNode出现问题时能够快速的替代它。

JournalNode

为了使Standby节点保持其状态与Active 节点同步,两节点都与 一组称"JournalNodes"(JN)的单独守护进程进行通信 。当Active 节点执行任何命名空间修改时,它会持久地将修改记录记录到这些JN的大多数中Standby节点能够从JN读取edit log内容,并不断监视它们以查看edit log内容的更改。当"Standby节点"看到edit log变化时,会将其应用到自己的命名空间。发生故障转移时,备用服务器将确保在将自身升级为活跃状态之前,已从JournalNode读取所有edit log内容。这样可确保在发生故障转移之前,命名空间状态已经完全同步。

DFSZKFailoverController

  • Failure detector: 及时发现出故障的NN,并通知zkfc
  • Active node locator: 帮助客户端定位哪个是Active的NN
  • Mutual exclusion of active state: 保证某一时刻只有一个Active的NN

yarn

JobHistoryServer

历史服务器,管理者可以通过历史服务器查看已经运行完成的Mapreduce作业记录,比如用了多少个Map、多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。

ResourceManager

  • 处理客户端请求;
  • 启动或监控ApplicationMaster;
  • 监控NodeManager;
  • 资源的分配与调度。

NodeManager

  • 它负责接收处理来自ResourceManager的资源分配请求,分配具体的Container给应用。
  • 同时,它还负责监控并报告Container使用信息给ResourceManager。NodeManager只负责管理自身的Container,它并不知道运行在它上面应用的信息。负责管理应用信息的组件是ApplicationMaster
相关推荐
武子康1 小时前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP16 小时前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库16 小时前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟16 小时前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人17 小时前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长17 小时前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人17 小时前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城17 小时前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
中烟创新17 小时前
灯塔AI智能体获评“2025-2026中国数智科技年度十大创新力产品”
大数据·人工智能·科技
璞华Purvar18 小时前
2026智造升级|从配方到生产,从协同到合规——璞华易研PLM赋能制造企业全链路升级
大数据·人工智能