1、简介
书接上回,上篇博文中介绍如何安装Hadoop和基本配置,本文介绍Hadoop中分布式文件组件--HDFS,在HDFS中,有namenode、datanode、secondnamenode这三个角色,本文将详细介绍这几个组件是如何进行协作的,以及HDFS常用命令和一些api的使用。
HDFS特点:
- 高容错性:拥有副本机制,提高容错性;
- 适合处理大数据量:能够处理GB、TB、PB级别的数据量;
- 数据传输有延迟:不适合低延时数据访问;
- 不适合大量小文件存储:文件信息都会存储在namenode中,namenode内存空间有限,而且小文件过多会导致磁盘寻址时间长;
- 不支持文件并发写入、修改:只支持串行写,而且只支持追加,不支持修改。
2、HDFS中几个组件的原理及使用
2.1、NameNode(nn)
NameNode是master,是HDFS中的管理者,管理HDFS文件的命令空间、文件副本策略、管理数据块映射信息、处理客户端的读写请求等。存储文件数据块元数据信息,NameNode的默认空间为128G,每个block的元数据信息占用150B。
2.2、DataNode(dn)
datanode是执行NameNode下发的操作命令,存储实际的数据块,执行数据块的读写操作,文件块大小默认是 128Mb ,可通过 dfs.blocksize 参数设置(在 hdfs-site.xml文件中设置)。
2.3、SecondaryNameNode(2nn)
SecondaryNameNode并非NameNode的热备份,当NameNode挂掉的时候,辅助回复NameNode;在NameNode正常的时候,辅助NameNode,分摊NameNode工作量。
2.4、NameNode 和 SecondaryNameNode 的工作机制
NameNode节点因为经常响应客户请求,需要及时获取请求文件的元数据信息。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此HDFS会产生元数据备份文件存储在磁盘中,备份文件为FsImage。
在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,就能合成元数据。但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行FsImage和Edits的合并,如果这个操作由NameNode 节点完成,又会效率过低。因此,引入一个新的节点SecondaryNameNode,专门用于FsImage和Edits的合并。
注:第一次启动NameNode格式化后,创建Fsimage和Edits文件。
2.5、hdfs读写原理
2.5.1、读原理
2.5.2、写原理
3、HDFS常用命令
HDFS命令可以使用 hadoop fs 也可以使用 hdfs dfs 命令。
bash
# 1、帮助命令
hadoop fs -help 具体命令(例如:rm、get)
# 2、上传文件(拷贝)
hadoop fs -put/copyFromLocal 本地文件 hdfs目录
hadoop fs -put/copyFromLocal test.txt /test
# 3、上传文件(剪切)
hadoop fs -moveFromLocal 本地文件 hdfs目录
# 4、追加文件内容
hadoop fs -appendToFile 本地文件 hdfs文件
# 5、下载
hadoop fs -get/copyToLocal HDFS文件 本地文件
# 6、hdfs类似于linux命令的操作
hadoop fs -ls/mv/rm/du/chmod/chown/mkdir/tail/cp/cat ...
4、HDFS的API操作
关于HDFS操作使用test方式运行代码。
4.1、引入依赖
XML
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.2.4</version>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-test</artifactId>
<version>3.3.1</version>
</dependency>
<dependency>
<groupId>org.junit.platform</groupId>
<artifactId>junit-platform-launcher</artifactId>
<version>1.10.3</version>
<scope>test</scope>
</dependency>
4.2、搭建测试代码框架
关于HDFS操作的API,可以使用fs对象进行操作,这些API都可以很快上手。对于HDFS的使用,需要根据使用场景进行一些自定义设置,需要在Configuration中指定即可。
java
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.jupiter.api.AfterAll;
import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;
import org.junit.jupiter.api.TestInstance;
import org.springframework.boot.test.context.SpringBootTest;
import java.net.URI;
import java.util.Arrays;
@SpringBootTest(classes = TestHDFS.class)
@TestInstance(TestInstance.Lifecycle.PER_CLASS)
public class TestHDFS {
FileSystem fs;
@BeforeAll
public void init() throws Exception{
Configuration configuration = new Configuration();
URI uri = new URI("hdfs://192.168.0.66:8020");
fs = FileSystem.get(uri, configuration);
}
@AfterAll
public void destory() throws Exception{
fs.close();
}
@Test
public void getStatus() throws Exception{
FileStatus[] fileStatuses = fs.listStatus(new Path("/test/test.txt"));
for(FileStatus status : fileStatuses){
System.out.println(status.getPath());
System.out.println("is directory" + status.isDirectory());
System.out.println("is file" + status.isFile());
}
}
@Test
public void getFiles() throws Exception{
RemoteIterator<LocatedFileStatus> statusRemoteIterator = fs.listFiles(new Path(("/test")), true);
while (statusRemoteIterator.hasNext()) {
LocatedFileStatus status = statusRemoteIterator.next();
System.out.println(Arrays.toString(status.getBlockLocations()));
System.out.println(status.getPath());
System.out.println(status.isFile());
System.out.println(status.getBlockSize());
System.out.println(status.getOwner());
}
}
}
5、HDFS配置
在HDFS中有几种配置文件:
- hdfs-default.xml:定义HDFS默认参数;
- hdfs-site.xml:在 etc/hadoop目录下,可以自定义配置;
- 在java项目中的resources目录下 hdfs-site.xml:自定义配置;
- 在java代码中的Configuration中指定。
几种配置文件的优先级为:1 < 2 < 3 < 4。在使用过程中需要根据使用场景来自定义参数。
6、总结
本文详细介绍HDFS读写以及NameNode和SecondaryNameNode之间如何协调工作的原理,让大家对HDFS有了进一步了解,同时介绍HDFS一些常用命令,可以帮助我们使用命令直接操作HDFS,最后介绍如何将HDFS引入到项目中,如何在代码中实现HDFS的操作。关于更多Hadoop组件相关知识,将在后续持续更新。