Hadoop-HDFS - 技术栈

Hadoop的HDFS（Hadoop Distributed File System）是一个分布式文件系统，它被设计用来在普通的硬件上运行，并且提供高吞吐量访问应用程序数据的能力。

HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成：

NameNode : 负责执行有关 文件系统命名空间 的操作，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。(第一无二，主要职责就是沟通协调)
DataNode：负责提供来自文件系统客户端的读写请求，执行块的创建，删除等操作。（依稀系统可以有多个，主要职责就是存储数据）

写数据

客户端

NameNode:

DataNode:

读数据

客户端

NameNode:

DataNode:

客户端

写数据： 以一个数据包为一个单位写入DataNode，DataNode在接受到数据包后会回复应答信号，如果客户端没收到DataNode的应答信号，则认为该DataNode挂了，会跳过该节点。该挂掉的节点随后会被NameDate处理。
**读数据：**如果读某个节点发现无响应数据，则跳过读在一个。

NameNode

这玩意存储有2张表，一个是数据块列表-保存了每个数据块在哪些DataNode上(数据块1:存储在 DataNode1,DataNode2,DataNode3)，一个是DataNode列表-保存了每个DataNode上存储着哪些数据块(DataNode1:存储着数据块1，数据块2)。
如果书数据块损坏，则会更新数据块列表，将该数据块从表中删除
如果是DataNode损坏，会同时更新2张表
定时扫描数据块列表，检查每个数据块是否被充分备份，如果在扫描过程中发现数据块损坏或丢失，DataNode会向NameNode报告这些错误。NameNode随后会从其他DataNode复制相应的数据块副本，以修复损坏的数据。