Hadoop-HDFS

Hadoop的HDFS(Hadoop Distributed File System)是一个分布式文件系统,它被设计用来在普通的硬件上运行,并且提供高吞吐量访问应用程序数据的能力。

HDFS 架构

HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:

  • NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。(第一无二,主要职责就是沟通协调)
  • DataNode:负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作。(依稀系统可以有多个,主要职责就是存储数据)

各角色职责

写数据

客户端

  1. 写数据时负责将文件切分成数据块 (64,128MB)
  2. 2个重要参数:block size:标识块大小;replication faxtor:表示数据存储在几个不通的地方

NameNode:

  1. NameNode分配DataNode地址给客户端

DataNode:

  1. 将数据存储在硬盘里
  2. 接收数据时同时将同样的数据发送下一个DataNode
  3. 通知NameNode数据所有数据写入完成

读数据

客户端

  1. 告诉NameNode所要读取的文件名
  2. 根据NameNode返回的数据块地址,从最近的一个DataNode请求返回数据

NameNode:

  1. 收到客户端读请求后返回数据所在的地址,包括数据块列表和数据块对应的DataNode列表

DataNode:

  1. 收到客户端请求后返回数据

故障检测

  1. DataNode会每3秒发送一个心跳到NameNode,如果NameNode在10分钟内没有收到DataNode发送的心跳,则认为DataNode已经挂了。
  2. 客户端在发送数据到DataNode时,DataNode会回复一个应答信号,如果客户端没有收到应答信号(多次尝试后),客户端会认为主机已经挂掉。
  3. 客户端在发送数据到DataNode时,会携带一段校验和,DataNode会将数据和校验和一起存到硬盘。
  4. DataNode会定时发送所有DataNode的数据报告给NameNode,发送前会校验校验和,若数据损坏(校验和不正确),则不会发送损坏的数据块信息。

故障处理

客户端

  1. 写数据: 以一个数据包为一个单位写入DataNode,DataNode在接受到数据包后会回复应答信号,如果客户端没收到DataNode的应答信号,则认为该DataNode挂了,会跳过该节点。该挂掉的节点随后会被NameDate处理。
  2. **读数据:**如果读某个节点发现无响应数据,则跳过读在一个。

NameNode

  1. 这玩意存储有2张表,一个是数据块列表-保存了每个数据块在哪些DataNode上(数据块1:存储在 DataNode1,DataNode2,DataNode3),一个是DataNode列表-保存了每个DataNode上存储着哪些数据块(DataNode1:存储着数据块1,数据块2)。
  2. 如果书数据块损坏,则会更新数据块列表,将该数据块从表中删除
  3. 如果是DataNode损坏,会同时更新2张表
  4. 定时扫描数据块列表,检查每个数据块是否被充分备份,如果在扫描过程中发现数据块损坏或丢失,DataNode会向NameNode报告这些错误。NameNode随后会从其他DataNode复制相应的数据块副本,以修复损坏的数据。
相关推荐
万能小锦鲤16 小时前
《大数据技术原理与应用》实验报告三 熟悉HBase常用操作
java·hadoop·eclipse·hbase·shell·vmware·实验报告
王小王-1231 天前
基于Hadoop与LightFM的美妆推荐系统设计与实现
大数据·hive·hadoop·大数据美妆推荐系统·美妆商品用户行为·美妆电商
一切顺势而行1 天前
hadoop 集群问题处理
大数据·hadoop·分布式
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告七 熟悉 Spark 初级编程实践
hive·hadoop·ubuntu·flink·spark·vmware·实验报告
项目題供诗2 天前
Hadoop(二)
大数据·hadoop·分布式
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告五 熟悉 Hive 的基本操作
hive·hadoop·ubuntu·eclipse·vmware·实验报告·hiveql
随心............3 天前
hive的相关的优化
数据仓库·hive·hadoop
万能小锦鲤3 天前
《大数据技术原理与应用》实验报告一 熟悉常用的Linux操作和Hadoop操作
大数据·linux·hadoop·ubuntu·vmware·实验报告·大数据技术原理与应用
码字的字节3 天前
深入解析Hadoop中的HDFS架构设计
大数据·hadoop·hdfs
码字的字节3 天前
深入探讨Hadoop YARN Federation:架构设计与实践应用
hadoop·yarn·federation