HDFS分布式文件系统
学习目标
使学生了解文件系统的分类,能够描述不同文件系统的特点
使学生熟悉HDFS架构,能够描述HDFS架构的主要组件及其作用
使学生了解HDFS的特点,能够简述HDFS的特点
使学生掌握HDFS的文件读写原理,能够叙述HDFS读写文件的流程
使学生熟悉HDFS的健壮性,能够叙述HDFS心跳机制、副本机制和负载均衡等策略
使学生掌握HDFS的Shell操作,能够灵活运用HDFS Shell命令操作HDFS
使学生掌握HDFS的Java API操作,能够灵活使用Java API编写应用程序操作HDFS
使学生熟悉Federation机制,能够描述Federation机制的结构、特点并实现Federation机制。
使学生了解Erasure Coding,能够简述Erasure Coding节省存储空间的原理
第一课时
知识点1-文件系统的分类
单机文件系统
单机文件系统是所有文件系统的基础,也是我们常用的一种文件系统,它通过单台计算机的本地磁盘存储文件,依靠操作系统提供的文件系统实现文件的存储和管理。随着互联网的兴起,数据对存储容量要求越来越高,单机文件系统的缺点逐渐显现出来。
网络文件系统
网络文件系统可以看作单机文件系统的一个网络抽象,其本质与单机文件系统相似,网络文件系统可以通过网络共享文件,用户可以像访问本地磁盘的文件一样便捷的访问远端计算机的文件。网络文件系统的出现一定程度上解决了单机文件系统存储容量的瓶颈,用户可以将文件存储在网络文件系统和本地文件系统两个位置。网络文件系统没有解决单机文件系统性能低、可靠性低的瓶颈。
分布式文件系统
知识点2-HDFS架构
HDFS架构图如下:
(1)Block
Block是HDFS文件系统中最小的存储单位,通常称之为数据块。
在HDFS文件系统中存储的文件会被拆分成多个Block,每个Block作为独立的单元进行存储,同一文件的多个Block通常存放在不同的DataNode。
在Hadoop 3.x版本中,默认Block大小是128M。
注意:如果文件大小或者文件被拆分后的Block没有达到128MB,则Block的大小也会根据实际情况进行调整。
(2)MetaData
MeataData用于记录HDFS文件系统的相关信息,这些信息称之为元数据。
在HDFS文件系统中,为了确保元数据的快速访问,元数据会保存在内存中。为了防止元数据的丢失,会在本地磁盘中生成Fsimage文件备份元数据。
Hadoop集群运行的过程中,用户频繁操作HDFS文件系统,内存中的元数据变化会非常快。如果内存中的元数据一旦更新,本地磁盘的Fsimage文件会同步更新,这些操作非常消耗NameNode资源。
HDFS文件系统引入了Edits文件,该文件以追加方式记录内存中元数据的每一次变化,如果NameNode宕机,可以通过合并Fsimage文件和Edits文件的方式恢复内存中存储的元数据。
(3)NameNode
NameNode是HDFS集群的名称节点,通常称为主节点。如果NameNode由于故障原因宕机无法使用,那么用户就无法访问HDFS。NameNode作为HDFS的主节点,起着至关重要的作用,主要功能如下:
管理文件系统的命名空间。
处理客户端对文件的读写请求。
维护HDFS的元数据。
维护和管理DataNode,并协调DataNode为客户端发起的读写请求提供服务。
(4)DataNode
DataNode是HDFS集群中的数据节点,通常称为从节点,主要功能如下。
存储Block。
根据NameNode的指令,对Block进行创建、复制、删除等操作。
定期向NameNode汇报自身存储的Block列表以及健康状态。
负责为客户端发起的读写请求提供服务。
(5)SecondaryNameNode
SecondaryNameNode是HDFS集群中的辅助节点;
定期从NameNode拷贝Fsimage文件并合并Edits文件,将合并结果发送给NameNode;
SecondaryNameNode和NameNode保存的Fsimage和Edits文件相同,可以作为NameNode的冷备份,当NameNode宕机无法使用时,可以通过手动操作将SecondaryNameNode切换为NameNode。
知识点3-HDFS的特点
(1)存储大文件
(2)高容错性
(3)简单的一致性模型
(4)移动计算比移动数据更经济
(5)可移植性
知识点4-HDFS的文件读写流程
客户端向HDFS写文件的具体流程。
客户端从HDFS读文件的具体流程。
知识点5-HDFS的健壮性
(1)心跳机制
(2)副本机制
(3)数据完整性校验
(4)安全模式
(5)快照
高校教辅平台(http://tch.ityxb.com)发放测试题以巩固本节课的学习内容。
第二课时
知识点1-HDFS的Shell介绍
HDFS Shell类似于Linux操作系统中的Shell,都是一种命令语言,可以完成对HDFS上文件和目录的一系列操作。
HDFS Shell的语法格式如下。
Bash
hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]
OPTIONS:可选,用来调试Hadoop。
SUBCOMMAND:表示HDFS Shell的子命令,用于操作HDFS。
SUBCOMMAND OPTIONS:表示HDFS Shell子命令的选项。
具体参考:
https://hadoop.apache.ac.cn/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html
HDFS Shell客户端命令中dfs子命令的子命令选项:
ls:List files 列文件
du: Disk usage 磁盘使用率
mv: Move file 移动文件
cp: Copy file 复制文件
rm = ReMove
cat: concatenate 连锁 把多个文本连接起来
mkdir:Make Directory(创建目录)
-ls命令
bash
hdfs dfs --ls [-S][-C][-r][-h][-R] <path>
参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。
参数-R:可选,用于递归显示指定目录及其子目录的信息。
参数path:用于指定查看的目录。
bash
hdfs dfs --ls -S /data
参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。
bash
hdfs dfs --ls -r -h /data
参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。
bash
hdfs dfs --ls -R -C /data
递归显示目录/data及其子目录的信息,并且信息中仅显示文件和子目录的路径。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-R:可选,用于递归显示指定目录及其子目录的信息。
-du
用于查看HDFS指定目录下每个文件和子目录大小,语法格式如下。
bash
hdfs dfs -du [-s] [-h] <path>
参数-s:可选,用于查看指定目录下所有文件和子目录的总大小。
参数-h:可选,用于将默认的文件和子目录大小(字节数)格式化为便于查看的格式进行显示。
bash
hdfs dfs --du --h /data
查看HDFS的目录/data中,每个文件和子目录的大小,并且将默认的文件和子目录大小格式化为便于查看的格式进行显示。
-mv
-mv用于移动HDFS指定目录或文件,语法格式如下。
bash
hdfs dfs -mv <src> <dst>
参数src:用于指定要移动的目录或文件。
参数dst:用于将目录或文件移动到指定的目录,如果指定的目录不存在,并且与移动的目录或文件处于同一路径下,那么会对文件或者目录进行重命名操作。
注意:移动的目录或文件,在指定的目录中不能存在。
将目录/data中的子目录/dataChild1移动到目录/data/dataChild中。
bash
hdfs dfs --mv /data/dataChild1 /data/dataChild
将目录/data中的文件dataA重命名为dataA_New。
bash
hdfs dfs --mv /data/dataA /data/dataA_New
-cp
-cp用于复制HDFS指定目录或文件,语法格式如下
bash
hdfs dfs -cp <src> <dst>
参数src:用于指定要复制的目录或文件,可以同时复制多个文件或目录,每个文件或目录用空格进行分隔。
参数dst:用于将目录或文件复制到指定的目录,该目录必须已经存在,并且要复制的文件或目录在指定的目录中不能存在。如果复制的是单文件或目录,则可以重新命名复制后的文件或目录名称。
将目录/data下的文件dataA_New和dataB复制到目录/data/dataChild。
bash
hdfs dfs -ls -R /data
hdfs dfs -cp /data/dataA_New /data/dataB /data/dataChild
将目录/data下的文件dataA_New复制到子目录/dataChild,并且重命名为dataA。
bash
hdfs dfs -cp /data/dataA_New /data/dataChild/dataA
-rm
-rm用于删除HDFS指定目录或文件,语法格式如下。
bash
hdfs dfs -rm [-f] [-r] [-skipTrash] [-safely] <src>
参数-f:可选,用于判断删除的目录或文件是否存在。
参数-r:可选,用于递归删除指定目录中的所有子目录和文件。
参数-skipTrash:可选,表示删除的文件或目录不会放入回收站。
参数-safely:可选,用于启动安全确认,当删除目录时会提示是否删除,避免误删。
使用子命令选项-rm删除目录/data的子目录/dataChild。
bash
hdfs dfs --rm --r /data/dataChild
-put
-put用于将本地文件系统中指定文件上传到HDFS指定目录,语法格式如下。
bash
hdfs dfs -put [-f] <localsrc> <dst>
参数-f:可选,用于判断上传的文件在HDFS指定目录是否存在。如果存在则上传的文件会替换HDFS指定目录中已经存在的文件。
参数localsrc:用于指定本地文件系统中上传的文件,可以同时上传多个文件。
参数dst:用于指定上传到HDFS的目录,该目录必须存在。
使用子命令选项-put将本地文件系统中/export/data目录下的文件a.txt和b.txt,上传到HDFS的目录/data。
bash
hdfs dfs --put /export/data/a.txt /export/data/b.txt /data
-cat
-cat用于查看HDFS指定文件内容,语法格式如下。
bash
hdfs dfs --cat <src>
参数src:用于指定查看的文件。
使用子命令选项-cat查看目录/data中文件a.txt的内容。
bash
hdfs dfs --cat /data/a.txt
-help
-mkdir
bash
hdfs dfs -mkdir [-p] <path>
参数-p:可选,它有两个作用:
第一是创建目录,如果要创建的目录存在,则不会返回错误信息,也不会重新创建。
第二是递归创建目录及其子目录。
在HDFS的目录/data中创建子目录/dataChild1,并在子目录/dataChild1中创建子目录/dataChild2。
hdfs dfs --mkdir --p /data/dataChild1/dataChild2
-get
-get用于将HDFS的指定文件下载到本地文件系统指定目录,语法格式如下。
bash
hdfs dfs -get [-f] <src> <localdst>
参数-f:可选,用于判断下载的文件在本地文件系统的指定目录是否存在。如果存在则下载的文件会替换指定目录中已存在的文件。
参数src:用于指定HDFS中的文件,可以同时下载多个文件。
参数localdst:用于指定下载到本地文件系统的路径,该路径必须存在。
知识点2-案例-通过Shell脚本定时采集数据到HDFS
通过一个案例演示如何通过Shell脚本周期性的将Hadoop的日志文件上传到HDFS,操作步骤如下。
(1)创建Shell脚本
bash
vi uploadHDFS.sh
内容融入
bash
#!/bin/bash
# 添加hadoop环境变量
export HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 指定hadoop日志存放位置
hadoop_log_dir=/opt/module/hadoop-3.3.4/logs/
# hadoop日志的存放位置
log_toupload_dir=/opt/data/logs/toupload/
# 获取当前时间
date=`date +%Y_%m_%d_%H_%M`
# 上传到hdfs上的目录名称
hdfs_dir=/hadoop_log/$date/
# 判断不同服务器的hadoop日志目录是否存在
# -d 判断是否为目录
if [ -d $log_toupload_dir ];
then
echo "$log_toupload_dir exits"
else
mkdir -p $log_toupload_dir
fi
# 将不同虚拟机的hadoop日志文件收集到目录/opt/data/logs/toupload/
ls $hadoop_log_dir | while read fileName
do
# 如果文件名是.log结尾
if [[ $fileName == *.log ]];
then
echo "moving hadoop log to $log_toupload_dir"
cp $hadoop_log_dir/*.log $log_toupload_dir
# 如果有多台,需要把多个日志都复制到当前节点的的/opt/data/logs/toupload/目录
#scp root@node2:$hadoop_log_dir/*.log $log_toupload_dir
#scp root@node3:$hadoop_log_dir/*.log $log_toupload_dir
echo "moving hadoop log willDoing"
break
fi
done
echo "create $hdfs_dir"
# 创建hdfs目录
hdfs dfs -mkdir -p $hdfs_dir
ls $log_toupload_dir | while read fileName
do
echo "upload hadoop log $fileName to $hdfs_dir"
hdfs dfs -put $log_toupload_dir$fileName $hdfs_dir
echo "upload hadoop log $fileName willDoing"
done
echo "delete $log_toupload_dir log"
# 删除临时目录/opt/data/logs/toupload/
rm -fr $log_toupload_dir
(2)执行Shell脚本
启动hadoop集群
bash
start-dfs.sh
bash
sh uploadHDFS.sh
如下:
(3)验证Hadoop日志文件是否上传成功
bash
http://192.168.100.3:9870/
(4)定时执行Shell脚本文件
检查是否安装crontab
bash
rpm -qa | grep crontab
rpm -qa:rpm 是一个用于管理RPM包的工具,-qa 选项表示列出所有已安装的软件包(其中 -q 表示查询,-a 表示所有包)。这条命令会输出一个包含所有已安装包名称的列表。
|(管道符号):这是一个管道操作符,它将前一个命令的输出作为后一个命令的输入。在这个例子中,rpm -qa 输出的所有包名会被传递给 grep 命令。
grep crontab:grep 是一个强大的文本搜索工具,它可以搜索文件中的指定模式。在这里,crontab 是一个模式,grep 将在管道传入的数据中搜索包含"crontab"的行。这将帮助你找到与crontab相关的已安装包。
若没有安装,可以执行
bash
yum -y install vixie-cron
yum -y install crontabs
启动crontab
bash
service crond status
service crond start
为脚本添加权限
查看uploadHDFS.sh的权限
bash
chmod 777 uploadHDFS.sh
在虚拟机node1执行"crontab -e"命令编辑Crontab文件,配置定时任务,在Crontab文件添加如下内容。
bash
*/2 * * * * /export/data/uploadHDFS.sh
10分钟后,刷新HDFS Web UI界面可以看到,需要上传的日志文件已经按照日期分类上传到HDFS中