Hadoop3:HDFS的架构组成

一、官方文档

我这里学习的是Hadoop3.1.3版本,所以,查看的也是3.1.3版本的文档


Architecture模块最下面

二、HDFS架构介绍

HDFS架构的主要组成部分,是一下四个部分

1、NameNode(NN)

就是Master节点,它是集群管理者。

1、管理HDFS的名称空间

2、配置副本策略

3、管理数据块(Block)映射信息

4、处理客户端读写请求

2、DataNode

就是Slave节点,干活的。NameNode下达程序命令,DataNode执行具体命令。

1、存储实际的数据块

2、执行数据块的读写操作

3、Client

客户端,web页面也算是客户端,终端命令也是客户端来执行的。

1、切分文件,文件上传到HDFS集群的时候,Client将文件切分成一个个的Block,然后,进行上传

2、与NameNode交互,获取文件的位置信息

3、与DataNode交互,读写数据

4、Client提供一些命令来管理HDFS,比如NameNode的格式化命令

5、Client可以通过一些命令来访问HDFS,比如对HDFS的增删改查操作

4、Secondary NameNode(2NN)

它不是NameNode的热备,当NameNode节点挂掉的时候,它并不能马上替换NameNode并提供服务

实际场景中,一般用两个NameNode来实现高可用,2NN一般不用

1、辅助NameNode,分担工作量

2、在紧急情况下,可辅助恢复NameNode

三、思考题

1、NameNode中的Block大小如何设置?设置多大合适?怎么计算?

1、配置参数dfs.blocksize

在Hadoop2.x/3.x版本中默认大小是128M,1.x版本中是64M。

默认配置在hdfs-default.xml中,我们可以在hdfs-site.xml中自定义配置

xml 复制代码
<property>
  <name>dfs.blocksize</name>
  <value>134217728</value>
  <description>
      The default block size for new files, in bytes.
      You can use the following suffix (case insensitive):
      k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),
      Or provide complete size in bytes (such as 134217728 for 128 MB).
  </description>
</property>

2、Block大小计算逻辑

这个Block大小的确定,主要受寻址时间、传输时间、磁盘性能3个因素影响。

一般地
寻址时间为传输时间的1%时,则为最佳状态。

假设,寻址时间是10ms,则最佳传输时间是10ms/0.01=1000ms=1s

于是,根据这个传输时间及磁盘的读写速率,计算出Block的大小设置

一般性配置
机械硬盘,我们就设置为128MB
固态硬盘,我们就设置为256MB

3、设置太小或太大会有什么弊端?

设置太小

那么,HDFS里面会有很多的小文件,这样,会增加寻址时间,影响性能。

设置太大

会降低HDFS的并发能力,影响性能。

相关推荐
Broken Arrows26 分钟前
k8s学习(二)——kubernetes整体架构及组件解析
学习·架构·kubernetes
唐僧洗头爱飘柔95273 小时前
【SpringCloud(1)】初识微服务架构:创建一个简单的微服务;java与Spring与微服务;初入RestTemplate
java·spring·spring cloud·微服务·架构·resttemplate·java微服务技术栈
可触的未来,发芽的智生5 小时前
触摸未来2025.10.05:悟神经网络符号之伤,拥抱声音的宇宙
人工智能·python·神经网络·算法·架构
yunmi_6 小时前
微服务,Spring Cloud 和 Eureka:服务发现工具
java·spring boot·spring cloud·微服务·eureka·架构·服务发现
一叶飘零_sweeeet6 小时前
从 0 到 PB 级存储:MinIO 分布式文件系统实战指南与架构解密
java·架构·大文件存储
u0104058367 小时前
电商返利APP的秒杀活动架构:如何通过本地缓存(Caffeine)+ 分布式锁应对瞬时高并发?
分布式·缓存·架构
飞川撸码7 小时前
读扩散、写扩散(推拉模式)详解 及 混合模式(实际场景分析及相关问题)
分布式·后端·架构
艾醒(AiXing-w)9 小时前
大模型面试题剖析:深入解析 Transformer 与 MoE 架构
深度学习·架构·transformer
hzulwy9 小时前
微服务注册与监听
微服务·云原生·架构·go
秃头菜狗9 小时前
十三、格式化 HDFS 文件系统、启动伪分布式集群
大数据·hadoop·hdfs