Hive进阶(2)----HDFS写入数据流程(赋图助君理解)

HDFS写入数据流程

一、写入流程

1、 Client向NameNode发起RPC请求,来确定请求文件block所在的位置;

2、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode都会返回含有该block副本的DataNode地址;

3、 这些返回的DN地址,会按照集群拓扑结构得出DataNode与客户端的距离,然后进行排序,排序两个规则:

网络拓扑结构中距离Client近的排靠前;

心跳机制中超时汇报的DN状态为STALE,这样的排靠后;

4、 Client选取排序靠前的DataNode来读取block,如果客户端本身就是DataNode,那么将从本地直接获取数据;

5、 底层上本质是建立FSDataInputStream,重复的调用父类DataInputStream的read方法,直到这个块上的数据读取完毕;一旦到达块的末尾,DFSInputStream 关闭连接并继续定位下一个块的下一个 DataNode;

6、 当读完列表的block后,若文件读取还没有结束,客户端会继续向NameNode获取下一批的block列表;一旦客户端完成读取,它就会调用 close() 方法。

7、 读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。

8、 NameNode只是返回Client请求包含块的DataNode地址,并不是返回请求块的数据;

9、 最终读取来所有的block会合并成一个完整的最终文件。

二、图形化流程

相关推荐
weixin_4572971010 小时前
Hadoop面试题
大数据·hadoop·分布式
何亚告10 小时前
记一次项目上hadoop数据迁移
大数据·hadoop·分布式
默默在路上11 小时前
apache-hive-3.1.3 show databases;报错
hive·hadoop·apache
talle202111 小时前
Hadoop分布式计算框架【MapReduce】
大数据·hadoop·mapreduce
走遍西兰花.jpg11 小时前
Oracle,hive,gaussdb的区别
hive·oracle·gaussdb
Francek Chen1 天前
【大数据基础】大数据处理架构Hadoop:01 Hadoop概述
大数据·hadoop·分布式·架构
無森~1 天前
实战:单词数量统计案例
大数据·hadoop
梦痕长情1 天前
记一次hiveSQL 查询无数据,String类型的字段自动转化为int类型的经历和解决方案
hive
weixin_462446231 天前
Hadoop / YARN / Hive 运维操作教程
运维·hive·hadoop
重生之绝世牛码1 天前
Linux软件安装 —— Hadoop高可用安装(集成Zookeeper)
大数据·linux·运维·hadoop·zookeeper·软件安装·hadoop高可用