2023.11.8 hadoop学习-概述,hdfs dfs的shell命令

HDFS存储大文件,把大文件默认切割成128M大小的block块,进行存储

HDFS存储块的时候,会给每个块进行备份(一共三份)

HDFS文件系统可存储超大文件，时效性稍差。

HDFS具有硬件故障检测和自动快速恢复功能。

HDFS为数据存储提供很强的扩展能力。

HDFS存储一般为一次写入，多次读取，只支持追加写入，不支持随机修改。

HDFS可在普通廉价的机器上运行。

HDFS架构

1、Client

发请求就是客户端。

文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储

与 NameNode 交互，获取文件的位置信息。

与 DataNode 交互，读取或者写入数据。

Client 提供一些命令来管理和访问HDFS，比如启动或者关闭HDFS。

2、NameNode

就是 master，它是一个主管、管理者。

处理客户端读写请求。

管理 HDFS 元数据（文件路径，文件的大小，文件的名字，文件权限，文件切割后的块(block)信息...）。

配置3副本备份策略。

3、DataNode

就是Slave。NameNode 下达命令，DataNode 执行实际的操作。

存储实际的数据块(block)。

执行数据块的读/写操作。

定时向namenode汇报block信息。

4、Secondary NameNode

并非 NameNode 的备份节点。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

只是辅助 NameNode，对HDFS元数据进行合并,合并后再交给NameNode。

在紧急情况下，可辅助恢复 NameNode 部分数据。

HDFS副本

block块: HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件拆分成一系列的数据块进行存储，这个数据块被称为block，除了最后一个，所有的数据块都是同样大小的。

block 块大小默认: 128M（134217728字节）

注意: 为了容错，文件的所有block都会有副本。每个文件的数据块大小和副本系数都是可配置的。

副本系数默认: 3个

hdfs默认文件: https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

7.SHELL命令

hdfs的shell命令概念: 安装好hadoop环境之后，可以执行类似于Linux的shell命令对文件的操作，如ls、mkdir、rm等,对hdfs文件系统进行操作查看,创建,删除等。

hdfs的shell命令格式1: hadoop fs -命令参数

hdfs的shell命令格式2: hdfs dfs -命令参数

hdfs的家目录默认: /user/root 如果在使用命令操作的时候没有加根目录/,默认访问的是此家目录/user/root

查看目录下内容: hdfs dfs -ls 目录的绝对路径

创建目录: hdfs dfs -mkdir 目录的绝对路径

创建文件: hdfs dfs -touch 文件的绝对路径

移动目录/文件: hdfs dfs -mv 要移动的目录或者文件的绝对路径目标位置绝对路径

复制目录/文件: hdfs dfs -cp 要复制的目录或者文件的绝对路径目标位置绝对路径

删除目录/文件: hdfs dfs -rm [-r] 要删除的目录或者文件的绝对路径

查看文件的内容: hdfs dfs -cat 要查看的文件的绝对路径注意: 除了cat还有head,tail也能查看

查看hdfs其他shell命令帮助: hdfs dfs --help

注意: hdfs有相对路径,如果操作目录或者文件的时候没有以根目录/开头,就是相对路径,默认操作的是/user/root

把本地文件内容追加到hdfs指定文件中: hdfs dfs -appendToFile 本地文件路径 hdfs文件绝对路径

注意: window中使用页面可以完成window本地和hdfs的上传下载,当然linux中使用命令也可以完成文件的上传和下载

linux本地上传文件到hdfs中: hdfs dfs -put linux本地要上传的目录或者文件路径 hdfs中目标位置绝对路径

hdfs中下载文件到liunx本地: hdfs dfs -get hdfs中要下载的目录或者文件的绝对路径 linux本地目标位置路径

8.启动hive服务

后台启动metastore服务: nohup hive --service metastore &

后台启动hiveserver2服务: nohup hive --service hiveserver2 &

查看metastore和hiveserver2进程是否启动: jps 注意: 服务名都叫RunJar,可以通过进程编号区分

服务启动需要一定时间可以使用lsof查看: lsof -i:10000 注意: 如果无内容继续等待,如果有内容代表启动成功

$root@node1 bin\]# nohup hive --service metastore \& \[1\] 13490 nohup: 忽略输入并把输出追加到"nohup.out" 回车 \[root@node1 bin\]# nohup hive --service hiveserver2 \& \[2\] 13632 nohup: 忽略输入并把输出追加到"nohup.out" 回车 \[root@node1 bin\]# jps ... 13490 RunJar 13632 RunJar \[root@node1 bin\]# # 注意:10000端口号一般需要等待3分钟左右才会查询到 \[root@node1 bin\]# lsof -i:10000 COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME java 18804 root 520u IPv6 266172 0t0 TCP \*:ndmp (LISTEN) # 此处代表hive启动成功$

9.启动hadoop服务

一键启动hdfs和yarn集群
$root@node1 \~\]# start-all.sh # 单独启动mr计算任务历史服务 \[root@node1 \~\]# mapred --daemon start historyserver$