HDFS面试（自己学习版）

叫我莫言鸭2023-07-20 10:26

1.简单问题

1. HDFS的优点？

处理大数据
容易扩展，直接加服务器
高容错，多副本
低要求不需要优秀的服务器（负载均衡）

2.HDFS的缺点？

不适应实时，修改速率相对较慢（只能追加）
无法对小数据进行大量的存储，因为NN的容量是一定的，
不支持并发写入，文件随机修改：同时只能一个线程对文件进行写操作，只能追加写

3.说说HDFS的结构

NN（NameNode）存储元数据和目录，处理客户端的读写请求
DN(DataNode) 存储数据块和校验和，执行数据块的读写操作
S NN 备份NN，对元数据进行更新操作（滚动日志+fsimage）
客户端：自己将文件切割称相应的块，然后上传。与NN进行交互获取块。与DN进行交互，执行操作。

4.HDFS文件块大小设定

与寻址时间有关：默认寻址时间为传输时间的百分之一为最优

假设10ms找到目标，

10ms/0.01 = 1s

1s*磁盘传输速率就是块大小

默认是128

5.为什么块不能太大，也不能太小

大：设置太大，磁盘传输时间明显大于定位块的时间，因为块大了，块总数就相对少了，寻址时间相对少很多，而块过大，磁盘传输时间变大。

小：块总数变多，寻址时间增大了。

2.读写解析

1.HDFS是怎么进行写操作的?

客户端向NN发起请求(要传入目标路径)，请求上传（因为要判断是否有权限上传）
NN收到请求并校验(校验目标路径和权限z`)，回应说可以上传
客户端请求上传第一个块，要求返回DN(注意块是一个一个上传的)
NN收到，发送3个DN（根据备份个数）
客户端先和3个DN进行交互，检测是否连接成功
DN返回应答
客户端对DN串行发送块数据，并行保存。(C->D1->D2->D3)

2.读操作

客户端向NN发送请求要求读数据（下载）
NN回应，将元数据发送过去
客户端向DN请求块（优先级是就近原则，但是也是并行读）
DN发送数据给客户端（以packet为单位校验）
客户端以packet为单位接收，先在本地缓存，然后写入文件

上一篇：使用shell监控应用运行状态通过企业微信接收监控通知

下一篇：Elasticsearch 查询分析器简介

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？