Hive进阶(3)----Checkpoint机制(赋图助君理解)

Checkpoint机制

一、Checkpoint机制概念

本机制可以参考《Hadoop权威指南》第十一章：

fsimage文件其实是Hadoop文件系统元数据的一个永久性的检查点，其中包含Hadoop文件系统中的所有目录和文件idnode的序列化信息；fsimage包含Hadoop文件系统中的所有目录和文件idnode的序列化信息；对于文件来说，包含的信息有修改时间、访问时间、块大小和组成一个文件块信息等；而对于目录来说，包含的信息主要有修改时间、访问控制权限等信息。

edits文件存放的是Hadoop文件系统的所有更新操作的路径，文件系统客户端执行的所以写操作首先会被记录到edits文件中。

sql 复制代码

hdfs oiv -p XML -i fsimage_00000000000000000 -o  fsimage.xml
hdfs oev -p XML -i edits_0000000000000000012-0000000000000000013 -o edits.xml

一、Checkpoint机制流程

1.NameNode管理着元数据信息，其中有两类持久化元数据文件：edits操作日志文件和fsimage元数据镜像文件。新的操作日志不会立即与fsimage进行合并，也不会刷到NameNode的内存中，而是会先写到edits中(因为合并需要消耗大量的资源)，操作成功之后更新至内存。

2.有dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 两个配置，只要达到这两个条件任何一个，secondarynamenode就会执行checkpoint的操作。

3.当触发checkpoint操作时，NameNode会生成一个新的edits即上图中的edits.new文件，同时SecondaryNameNode会将edits文件和fsimage复制到本地（HTTP GET方式）。

4.secondarynamenode将下载下来的fsimage载入到内存，然后一条一条地执行edits文件中的各项更新操作，使得内存中的fsimage保存最新，这个过程就是edits和fsimage文件合并，生成一个新的fsimage文件即上图中的Fsimage.ckpt文件。

5.secondarynamenode将新生成的Fsimage.ckpt文件复制到NameNode节点。

6.在NameNode节点的edits.new文件和Fsimage.ckpt文件会替换掉原来的edits文件和fsimage文件，至此刚好是一个轮回，即在NameNode中又是edits和fsimage文件。

7.等待下一次checkpoint触发SecondaryNameNode进行工作，一直这样循环操作。

Hive进阶(3)----Checkpoint机制(赋图助君理解)

Checkpoint机制

一、Checkpoint机制概念

一、Checkpoint机制流程

二、Checkpoint机制图形化流程