Spark，HDFS概述

HDFS组成构架：

注：

NameNode（nn）：就是 Master，它是一个主管、管理者。

(1) 管理 HDFS 的名称空间；

(2) 配置副本策略。记录某些文件应该保持几个副本；

(3) 管理数据块（Block）映射信息；一个大文件可能有多个数据块（一块为128M），每个块保存在哪里

(4) 处理客户端读写请求。

DataNode：就是 Slave。NameNode 下达命令，DataNode 执行实际的操作。

(1) 存储实际的数据块；

(2) 执行数据块的读 / 写操作。

Secondary NameNode：并非 NameNode 的热备。当 NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。真实的开发中，我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode，分担其工作量，比如定期合并 Fsimage 和 Edits，并推送给 NameNode；

(2) 在紧急情况下，可辅助恢复 NameNode。

Client：就是客户端。

(1)文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；
(2)与 NameNode 交互，获取文件的位置信息；

(3)与 DataNode 交互，读取或者写入数据；

(4) Client 提供一些命令来管理 HDFS，比如 NameNode 格式化；

(5) Client 可以通过一些命令来访问 HDFS，比如对 HDFS 增删查改操作；

HDFS文件默认大小是128M

shell操作文件上传
1.从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是：

hadoop fs -moveFormLocal （本地文件路径服务器上的文件路径）

可以通过如下命令把这个文件上传到服务器上。

root@hadoop100 hadoop-3.1.3\]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt 注意到，它会把本地的文件删除掉。 2.如果要保留本地的文件，可以使用 -put 命令。具体如下： \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo shell操作文件下载 下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。 基本格式是： hadoop fs -get （服务器上的文件路径 本地文件路径) 示例需求： 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。 对应的命令： \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt 其他shell操作 1.显示目录信息。 使用-ls命令，示例如下： \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -ls / 上面的命令用来查看根目录（/）下的文件。 2.创建文件夹。 使用-mkdir命令。格式是：hadoopfs -mkdir 文件名。 示例如下： \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mkdir /jinguo 3.显示文件内容。 使用-cat命令。示例如下： \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cat /sanguo/shuguo.txt 3.拷贝文件。 使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo 4.移动文件。 使用-mv命令，它的格式是： hadoop fs -mv 文件起点 终点 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo 5.删除文件或文件夹。 使用-rm 命令，它的格式是： -rm 要删除的文件 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -rm /sanguo/shuguo.txt 6.递归删除。 使用-rm -r命令， 它用来删除目录及目录里面内容，它的格式是： -rm -r 要删除的文件夹。 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -rm -r /sanguo 7.统计文件夹的大小信息。使用命令 -du。示例如下 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo 27 81 /jinguo 这个文件夹下面的文件信息 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo 14 42 /jinguo/shuguo.txt 7 21 /jinguo/weiguo.txt 6 18 /jinguo/wuguo.txt 说明：27表示文件大小；81表示27\*3个副本；/jinguo表示查看的目录 8. -setrep：设置HDFS中文件的副本数量 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 效果如下 ![](https://i-blog.csdnimg.cn/direct/f4856e0935914d6dbe6a4ddb3e984de4.png)