HDFS体系架构&文件写入/下载流程

小浩码字贼快2024-07-11 12:32

HDFS体系架构

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是Hadoop项目中的一个核心组件，旨在以高容错、高吞吐量来处理大规模数据集。它的体系架构由以下几个主要部分组成：Client，NameNode，DataNode，SecondaryNameNode

1.Client：客户端

1.文件切分

2.与NameNode交互，获取文件元数据信息

3.与DataNode交互，读取或写入数据

4.与HDFS进行交互

2.NameNode：Master(管理者)

1.管理HDFS的元数据空间

2.管理block块的映射信息

3.接受DataNode心跳，管理DataNode信息

4.处理客户端的读写请求

3.DataNode：Slave(NN下达命令执行实际的操作)

1. 存储实际的数据块

2.执行数据块的读写操作

3.向NameNode发送心跳，以及block块汇报

4.Secondary NameNode

1.并非NameNode的热备份，当NameNode停止服务的时候不能马上代替NameNode

2.辅助NameNode，分担工作量

3.定期合并fsimage和editslog，推送给NameNode

4.紧急情况下可以辅助恢复namenode

HDFS写入/下载流程

客户端请求 NameNode 创建一个新文件。

NameNode 检查文件是否已存在，并验证客户端权限。

NameNode 创建一个新文件条目，返回给客户端数据块的位置信息（即哪些 DataNode 将存储数据块的副本）。

客户端按顺序将数据块写入到指定的 DataNode。

DataNode 将数据块复制到其他 DataNode 以确保副本数量。

DataNode 向 NameNode 报告已存储的数据块信息。

客户端请求 NameNode 读取文件。

NameNode 返回文件的元数据和数据块位置信息。

客户端按顺序从相应的 DataNode 读取数据块。

客户端汇总数据块，呈现完整文件。

上一篇：【机器学习】初学者经典案例（随记）

下一篇：事半功倍大法！财务数据API让企业工作智能化

热门推荐

01GPU 进阶笔记（二）：华为昇腾 910B GPU 02Word粘贴时出现“运行时错误53,文件未找到：MathPage.WLL“的解决方案 03Coze扣子平台完整体验和实践（附国内和国际版对比）04MIUI显示/隐藏5G开关的方法，信号弱时开启手机Wifi通话方法 05扣子空间的使用教程与大模型技术思考 06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07集群聊天服务器---MySQL数据库的建立 08Coze实战第13讲：飞书多维表格读取+豆包生图模型，轻松批量生成短剧封面 09DeepSeek各版本说明与优缺点分析 10使用Ruby接入实时行情API教程