Hadoop-HDFS

Hadoop的HDFS(Hadoop Distributed File System)是一个分布式文件系统,它被设计用来在普通的硬件上运行,并且提供高吞吐量访问应用程序数据的能力。

HDFS 架构

HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:

  • NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。(第一无二,主要职责就是沟通协调)
  • DataNode:负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作。(依稀系统可以有多个,主要职责就是存储数据)

各角色职责

写数据

客户端

  1. 写数据时负责将文件切分成数据块 (64,128MB)
  2. 2个重要参数:block size:标识块大小;replication faxtor:表示数据存储在几个不通的地方

NameNode:

  1. NameNode分配DataNode地址给客户端

DataNode:

  1. 将数据存储在硬盘里
  2. 接收数据时同时将同样的数据发送下一个DataNode
  3. 通知NameNode数据所有数据写入完成

读数据

客户端

  1. 告诉NameNode所要读取的文件名
  2. 根据NameNode返回的数据块地址,从最近的一个DataNode请求返回数据

NameNode:

  1. 收到客户端读请求后返回数据所在的地址,包括数据块列表和数据块对应的DataNode列表

DataNode:

  1. 收到客户端请求后返回数据

故障检测

  1. DataNode会每3秒发送一个心跳到NameNode,如果NameNode在10分钟内没有收到DataNode发送的心跳,则认为DataNode已经挂了。
  2. 客户端在发送数据到DataNode时,DataNode会回复一个应答信号,如果客户端没有收到应答信号(多次尝试后),客户端会认为主机已经挂掉。
  3. 客户端在发送数据到DataNode时,会携带一段校验和,DataNode会将数据和校验和一起存到硬盘。
  4. DataNode会定时发送所有DataNode的数据报告给NameNode,发送前会校验校验和,若数据损坏(校验和不正确),则不会发送损坏的数据块信息。

故障处理

客户端

  1. 写数据: 以一个数据包为一个单位写入DataNode,DataNode在接受到数据包后会回复应答信号,如果客户端没收到DataNode的应答信号,则认为该DataNode挂了,会跳过该节点。该挂掉的节点随后会被NameDate处理。
  2. **读数据:**如果读某个节点发现无响应数据,则跳过读在一个。

NameNode

  1. 这玩意存储有2张表,一个是数据块列表-保存了每个数据块在哪些DataNode上(数据块1:存储在 DataNode1,DataNode2,DataNode3),一个是DataNode列表-保存了每个DataNode上存储着哪些数据块(DataNode1:存储着数据块1,数据块2)。
  2. 如果书数据块损坏,则会更新数据块列表,将该数据块从表中删除
  3. 如果是DataNode损坏,会同时更新2张表
  4. 定时扫描数据块列表,检查每个数据块是否被充分备份,如果在扫描过程中发现数据块损坏或丢失,DataNode会向NameNode报告这些错误。NameNode随后会从其他DataNode复制相应的数据块副本,以修复损坏的数据。
相关推荐
Lx3523 小时前
复杂MapReduce作业设计:多阶段处理的最佳实践
大数据·hadoop
Lx3521 天前
Hadoop数据处理优化:减少Shuffle阶段的性能损耗
大数据·hadoop
dessler1 天前
Hadoop HDFS-高可用集群部署
linux·运维·hdfs
Lx3522 天前
Hadoop容错机制深度解析:保障作业稳定运行
大数据·hadoop
IT毕设梦工厂2 天前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
大数据CLUB3 天前
基于spark的澳洲光伏发电站选址预测
大数据·hadoop·分布式·数据分析·spark·数据开发
计算机编程小央姐3 天前
跟上大数据时代步伐:食物营养数据可视化分析系统技术前沿解析
大数据·hadoop·信息可视化·spark·django·课程设计·食物
IT学长编程3 天前
计算机毕业设计 基于Hadoop的健康饮食推荐系统的设计与实现 Java 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】
java·大数据·hadoop·毕业设计·课程设计·推荐算法·毕业论文
Lx3523 天前
Hadoop数据一致性保障:处理分布式系统常见问题
大数据·hadoop
IT学长编程3 天前
计算机毕业设计 基于Hadoop豆瓣电影数据可视化分析设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试
大数据·hadoop·python·django·毕业设计·毕业论文·豆瓣电影数据可视化分析