Hadoop架构与核心模块解析

Hadoop的架构是一个分布式系统，旨在高效存储和处理大规模数据。其核心设计包括分层组件，各司其职，协同工作。以下是Hadoop架构的详细解析：

1. 核心模块

Hadoop主要由三个核心模块构成：

HDFS（Hadoop Distributed File System）：分布式文件系统，负责数据存储。
YARN（Yet Another Resource Negotiator）：资源管理和作业调度框架。
MapReduce：分布式计算模型（在YARN上运行）。

2. HDFS架构

设计目标：高容错性、高吞吐量、支持海量数据存储。

关键组件

NameNode（主节点）：
- 管理文件系统元数据（目录结构、文件分块信息、块位置等）。
- 协调客户端对文件的读写操作。
- 单点故障问题通过**HA（高可用）**方案解决（如双NameNode + ZooKeeper）。
DataNode（从节点）：
- 存储实际数据块（默认每个块128MB/256MB，3副本）。
- 定期向NameNode发送心跳和块报告。
Secondary NameNode：
- 辅助合并NameNode的编辑日志（fsimage + edits），非热备，需与HA区分。

数据读写流程

写入：客户端切分文件→NameNode分配DataNode→流水线写入多副本。
读取：客户端从NameNode获取块位置→直接联系DataNode读取。

3. YARN架构

设计目标：解耦资源管理与作业调度，支持多计算框架（如MapReduce、Spark）。

关键组件

ResourceManager（RM）：
- 全局资源调度器，管理集群资源（CPU、内存）。
- 包含Scheduler （纯调度，不监控任务）和ApplicationsManager（接受作业提交）。
NodeManager（NM）：
- 单节点资源代理，监控资源使用并汇报给RM。
- 启动和管理容器（Container）执行任务。
ApplicationMaster（AM）：
- 每个应用（如MapReduce作业）专属，向RM申请资源，协调任务执行。
- 处理任务失败、重试等容错逻辑。

作业执行流程

客户端提交作业到RM。
RM分配容器启动AM。
AM向RM申请资源，NM启动容器运行任务（Map/Reduce）。
AM监控任务状态，直到作业完成。

4. MapReduce计算模型

Map阶段：分布式处理输入数据，生成键值对。
Shuffle & Sort：按Key排序并分发到Reduce节点。
Reduce阶段：聚合中间结果，生成最终输出。

5. 辅助组件与生态系统

Hadoop Common：提供基础库和工具（如RPC、序列化）。
高可用与联邦 ：
- HDFS HA：双NameNode + ZooKeeper实现故障切换。
- HDFS Federation：多个NameNode分治命名空间，扩展元数据容量。
生态系统工具 ：
- ZooKeeper：协调分布式服务（如HA）。
- HBase 、Hive 、Spark等：基于Hadoop构建的数据处理工具。

6. 核心特性

容错性：数据多副本存储、任务自动重试。
可扩展性：支持数千节点集群。
高吞吐：数据本地化计算（移动计算而非数据）。

架构图示

复制代码

+-------------------+     +-------------------+
|     Client        |     |     Client        |
+-------------------+     +-------------------+
           |                       |
           | Submit Job            | Read/Write
           v                       v
+-------------------+     +-------------------+
|   ResourceManager |<--->|     NameNode      |
+-------------------+     +-------------------+
           |                       |
           | Allocates Resources   | Manages Metadata
           v                       v
+-------------------+     +-------------------+
|  NodeManager      |     |    DataNode       |
|  (Containers)     |     |  (Data Blocks)    |
+-------------------+     +-------------------+
           |
           | Runs
           v
+-------------------+
| ApplicationMaster  |
| (MapReduce/Spark)  |
+-------------------+

总结

Hadoop通过分层架构实现了存储（HDFS）、资源管理（YARN）与计算（MapReduce等）的分离，兼具高扩展性和容错性。其生态系统丰富，支持多样化的大数据处理场景，成为大数据领域的基石技术。