HDFS面试(自己学习版)

1.简单问题

1. HDFS的优点?

  • 处理大数据
  • 容易扩展,直接加服务器
  • 高容错,多副本
  • 低要求 不需要优秀的服务器(负载均衡)

2.HDFS的缺点?

  • 不适应实时 , 修改速率相对较慢(只能追加)
  • 无法对小数据进行大量的存储,因为NN的容量是一定的,
  • 不支持并发写入,文件随机修改:同时只能一个线程对文件进行写操作 ,只能追加写

3.说说HDFS的结构

  • NN(NameNode) 存储元数据和目录,处理客户端的读写请求
  • DN(DataNode) 存储数据块和校验和,执行数据块的读写操作
  • S NN 备份NN,对元数据进行更新操作(滚动日志+fsimage)
  • 客户端:自己将文件切割称相应的块,然后上传。 与NN进行交互获取块。与DN进行交互,执行操作。

4.HDFS文件块大小设定

与寻址时间有关:默认寻址时间为传输时间的百分之一为最优

假设10ms找到目标,

10ms/0.01 = 1s

1s*磁盘传输速率就是块大小

默认是128

5.为什么块不能太大,也不能太小

大:设置太大,磁盘传输时间明显大于定位块的时间,因为块大了,块总数就相对少了,寻址时间相对少很多,而块过大,磁盘传输时间变大。

小:块总数变多,寻址时间增大了。

2.读写解析

1.HDFS是怎么进行写操作的?

  • 客户端向NN发起请求(要传入目标路径),请求上传(因为要判断是否有权限上传)
  • NN收到请求并校验(校验目标路径和权限z`),回应说可以上传
  • 客户端请求上传第一个块,要求返回DN(注意块是一个一个上传的)
  • NN收到,发送3个DN(根据备份个数)
  • 客户端先和3个DN进行交互,检测是否连接成功
  • DN返回应答
  • 客户端对DN串行发送块数据,并行保存。(C->D1->D2->D3)

2.读操作

  • 客户端向NN发送请求要求读数据(下载)
  • NN回应,将元数据发送过去
  • 客户端向DN请求块(优先级是就近原则,但是也是并行读)
  • DN发送数据给客户端(以packet为单位校验)
  • 客户端以packet为单位接收,先在本地缓存,然后写入文件
相关推荐
懒惰才能让科技进步9 分钟前
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
人工智能·深度学习·学习·算法·chatgpt·transformer·剪枝
love_and_hope24 分钟前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
Chef_Chen28 分钟前
从0开始学习机器学习--Day14--如何优化神经网络的代价函数
神经网络·学习·机器学习
芊寻(嵌入式)37 分钟前
C转C++学习笔记--基础知识摘录总结
开发语言·c++·笔记·学习
hong1616881 小时前
跨模态对齐与跨领域学习
学习
阿伟来咯~2 小时前
记录学习react的一些内容
javascript·学习·react.js
Suckerbin2 小时前
Hms?: 1渗透测试
学习·安全·网络安全
水豚AI课代表2 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
聪明的墨菲特i2 小时前
Python爬虫学习
爬虫·python·学习
Diamond技术流3 小时前
从0开始学习Linux——网络配置
linux·运维·网络·学习·安全·centos