Hive进阶(2)----HDFS写入数据流程(赋图助君理解)

HDFS写入数据流程

一、写入流程

1、 Client向NameNode发起RPC请求,来确定请求文件block所在的位置;

2、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode都会返回含有该block副本的DataNode地址;

3、 这些返回的DN地址,会按照集群拓扑结构得出DataNode与客户端的距离,然后进行排序,排序两个规则:

网络拓扑结构中距离Client近的排靠前;

心跳机制中超时汇报的DN状态为STALE,这样的排靠后;

4、 Client选取排序靠前的DataNode来读取block,如果客户端本身就是DataNode,那么将从本地直接获取数据;

5、 底层上本质是建立FSDataInputStream,重复的调用父类DataInputStream的read方法,直到这个块上的数据读取完毕;一旦到达块的末尾,DFSInputStream 关闭连接并继续定位下一个块的下一个 DataNode;

6、 当读完列表的block后,若文件读取还没有结束,客户端会继续向NameNode获取下一批的block列表;一旦客户端完成读取,它就会调用 close() 方法。

7、 读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。

8、 NameNode只是返回Client请求包含块的DataNode地址,并不是返回请求块的数据;

9、 最终读取来所有的block会合并成一个完整的最终文件。

二、图形化流程

相关推荐
lifewange20 小时前
Hive 数据库 增删改 完整操作指南
数据库·hive·hadoop
WL_Aurora1 天前
Sqoop数据迁移工具从入门到精通
hive·hadoop·sqoop
蜀道山老天师1 天前
Prometheus监控Hadoop集群(实操完整版,含避坑指南)
大数据·linux·运维·hadoop·云原生·prometheus
极光代码工作室2 天前
基于大数据的交通流量分析系统
大数据·hadoop·python·数据分析·数据可视化
卷毛迷你猪2 天前
快速实验篇(A1)干旱气象数据上传至HDFS
大数据·hadoop·hdfs
头歌实践平台3 天前
Hadoop开发环境搭建
java·大数据·hadoop
小的~~3 天前
CentOS7安装CDH6.3.2
hive·hdfs·kafka
KANGBboy3 天前
hadoop冷热数据分离
大数据·hadoop·分布式
WL_Aurora3 天前
YARN资源调度器深度解析 | 架构原理、作业提交流程
大数据·hadoop·yarn
vivo互联网技术4 天前
vivo 万台规模 YARN 集群升级实践
大数据·hadoop·yarn