Hive进阶(2)----HDFS写入数据流程(赋图助君理解)

西北麦当当2024-04-19 17:42

HDFS写入数据流程

一、写入流程

1、 Client向NameNode发起RPC请求，来确定请求文件block所在的位置；

2、 NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode都会返回含有该block副本的DataNode地址；

3、这些返回的DN地址，会按照集群拓扑结构得出DataNode与客户端的距离，然后进行排序，排序两个规则：

网络拓扑结构中距离Client近的排靠前；

心跳机制中超时汇报的DN状态为STALE，这样的排靠后；

4、 Client选取排序靠前的DataNode来读取block，如果客户端本身就是DataNode,那么将从本地直接获取数据；

5、底层上本质是建立FSDataInputStream，重复的调用父类DataInputStream的read方法，直到这个块上的数据读取完毕；一旦到达块的末尾，DFSInputStream 关闭连接并继续定位下一个块的下一个 DataNode；

6、当读完列表的block后，若文件读取还没有结束，客户端会继续向NameNode获取下一批的block列表；一旦客户端完成读取，它就会调用 close() 方法。

7、读取完一个block都会进行checksum验证，如果读取DataNode时出现错误，客户端会通知NameNode，然后再从下一个拥有该block副本的DataNode继续读。

8、 NameNode只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；

9、最终读取来所有的block会合并成一个完整的最终文件。

二、图形化流程

上一篇：前端实习：Vue3实现mqtt的订阅与发布（极简版）

下一篇：初识 Zustand：一个强大而灵活的状态管理库

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）