Linux云计算 |【第五阶段】ARCHITECTURE-DAY4

主要内容:

HDFS文件系统的使用,调用Hadoop集群分析数据、Hadoop集群的维护、NFS网络配置管理

一、HDFS文件系统管理

1)文件系统管理方式:

  • ① WEB页面(能查看、能读取、不能写入)
  • ② 命令行(能查看、能读取、能写入)

格式:/usr/local/hadoop/bin/hadoop fs -命令

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -help

HDFS管理命令示例:

① 创建文件夹(-mkdir)

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -mkdir /input

② 创建文件(-touchz)

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -touchz /input/tfile

③ 查看文件和目录(-ls)

如果访问路径不指定前缀,默认读取core-site.xml核心配置文件的fs.defaultFS参数

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls hdfs://hadoop1:9000/
Found 1 items
drwxr-xr-x   - root supergroup          0 2021-07-13 11:14 hdfs://hadoop1:9000/input
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /
Found 1 items
drwxr-xr-x   - root supergroup          0 2021-07-13 11:14 /input

[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls hdfs://hadoop1:9000/input
Found 1 items
-rw-r--r--   2 root supergroup          0 2021-07-13 11:14 hdfs://hadoop1:9000/input/tfile
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /input
Found 1 items
-rw-r--r--   2 root supergroup          0 2021-07-13 11:14 /input/tfile

访问本地文件系统请使用 file://

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls file:///

④ 上传文件(-put)

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -put /usr/local/hadoop/*.txt /input/
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /input
Found 4 items
-rw-r--r--   2 root supergroup      86424 2021-07-13 11:19 /input/LICENSE.txt
-rw-r--r--   2 root supergroup      14978 2021-07-13 11:19 /input/NOTICE.txt
-rw-r--r--   2 root supergroup       1366 2021-07-13 11:19 /input/README.txt
-rw-r--r--   2 root supergroup          0 2021-07-13 11:14 /input/tfile

⑤ 下载文件(-get)

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -get /input/tfile /tmp/tfile
[root@hadoop1 ~]# ls /tmp/ | grep tfile
tfile

⑥ 删除文件(-rm)

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -rm /input/tfile
21/07/13 11:22:30 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /input/tfile
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /input
Found 3 items
-rw-r--r--   2 root supergroup      86424 2021-07-13 11:19 /input/LICENSE.txt
-rw-r--r--   2 root supergroup      14978 2021-07-13 11:19 /input/NOTICE.txt
-rw-r--r--   2 root supergroup       1366 2021-07-13 11:19 /input/README.txt

⑦ 删除文件夹(-rmdir)

删除文件夹时,需提前将目录内的所有文件清空,否则无法删除

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -rm /input/*
21/07/13 11:25:04 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /input/LICENSE.txt
21/07/13 11:25:04 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /input/NOTICE.txt
21/07/13 11:25:04 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /input/README.txt
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -rmdir /input/
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /

使用集群分析数据示例:

① 重新初始化集群

警告:该方法会丢失所有数据

    • 停止集群:/usr/local/hadoop/sbin/stop-all.sh
    • 删除所有节点的dfs目录结构:/var/hadoop/*
    • 在NameNode上重新格式化:/usr/local/hadoop/bin/hdfs namenode -format
    • 启动集群:/usr/local/hadoop/sbin/start-all.sh
bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/sbin/stop-all.sh
[root@hadoop1 ~]# for i in hadoop1 node-{0001..0003};do
ssh ${i} 'rm -rf /var/hadoop/*'
done
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs namenode -format
[root@hadoop1 ~]# /usr/local/hadoop/sbin/start-all.sh

② 创建数据分析存储目录,并上传文件

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -mkdir /input
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -put /usr/local/hadoop/*.txt /input
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /input

③ 分析上传的文件,分析热点词汇

bash 复制代码
[root@hadoop1 ~]# cd /usr/local/hadoop/
[root@hadoop1 hadoop]# ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /input /output

④ 查看结果

bash 复制代码
[root@hadoop1 hadoop]# /usr/local/hadoop/bin/hadoop fs -cat /output/*

二、节点管理

1)增加修复节点

- 新增DateNode节点流程:

  • ① 启动一个新的主机,设置SSH免密登录
  • ② 在所有节点修改/etc/hosts,增加新节点的主机信息
  • ③ 安装Java运行环境(java-1.8.0-openjdk-devel)
  • ④ 拷贝NameNodede的/usr/local/hadoop到新节点
  • ⑤ 同步配置文件到所有主机

补充:通过新增节点方式实现修复节点

  • ① 修复节点比较简单,步骤和新增节点一致;(新节点的IP和主机名需要与损坏节点一致)
  • ② 如果旧节点数据丢失,新节点可以自动从其它集群节点的副本恢复数据;
  • ③ 新节点上线以后会自动恢复数据,如果数据量非常大,需要等待一段时间;

新增DateNode节点示例:

步骤1:购买1台云主机

|---------|--------------|----------|
| 主机名称 | IP地址 | 相关配置 |
| newnode | 192.168.1.54 | 最低配置2核4G |

步骤2:新节点环境准备-1(hadoop1操作)

① 配置SSH免密登录

bash 复制代码
[root@hadoop1 ~]# ssh-copy-id -i /root/.ssh/id_rsa.pub 192.168.1.54

② 配置主机名解析(所有节点修改/etc/hosts,增加新节点的主机信息)

bash 复制代码
[root@hadoop1 ~]# vim /etc/hosts
192.168.1.50    hadoop1
192.168.1.51    node-0001
192.168.1.52    node-0002
192.168.1.53    node-0003
192.168.1.54    newnode    //添加newnode
[root@hadoop1 ~]# for i in node-{0001..0003} newnode;do
> rsync -av /etc/hosts ${i}:/etc/
> done

③ 同步NameNode的/usr/local/hadoop配置目录到新节点

bash 复制代码
[root@hadoop1 ~]# rsync -aXSH /usr/local/hadoop newnode:/usr/local/

步骤3:新节点环境准备-2(newnode操作)

① 安装JAVA运行环境

bash 复制代码
[root@newnode ~]# yum install -y java-1.8.0-openjdk-devel

② 新节点上手动单独启动DateNode

bash 复制代码
[root@newnode ~]# /usr/local/hadoop/sbin/hadoop-daemon.sh start datanode

补充:单独启动新DateNode节点,可以通过执行hadoop-daemon.sh start datanode,或者可以写入slaves配置文件,使用start-dfs.sh启动

③ 设置最大同步带宽(防止突然性的大规模访问,给主机造成分布式拒绝同步攻击导致宕机);由于新增的节点为空节点,为了让HDFS集群节点存储均匀,需平衡数据

bash 复制代码
[root@newnode ~]# /usr/local/hadoop/bin/hdfs dfsadmin -setBalancerBandwidth 500000000
Balancer bandwidth is set to 500000000
[root@newnode ~]# /usr/local/hadoop/sbin/start-balancer.sh    //启动平衡数据程序

④ 新节点启动NodeManager

由于NM不负责保存数据,所以增加节点相对简单,环境配置与DateNode一致;

bash 复制代码
[root@newnode ~]# /usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager

⑤ 验证新节点的角色

bash 复制代码
[root@newnode ~]# jps

步骤4: 验证集群(hadoop1操作)

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs dfsadmin -report   //HDFS集群信息
bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/yarn node -list    //YARN集群信息

2)删除修复节点

- 删除DataNode节点流程:

  • ① 由于集群NodeName存在数据,直接删除会导致HDFS集群节点奔溃及数据丢失,首先需要进行故障节点的迁移数据,在节点下线时才不会影响集群运行;
  • ② 当节点的数据迁移完成,即可删除(下线)节点
  • ③ 删除节点之后,节点信息不会立即消失,需等待一段时间才会移除;

补充:在Hadoop2.x中YARN节点管理非常简单,NodeManage只负责计算,不保存数据,直接删除即可;


删除DateNode节点示例:

步骤1:模拟上传测试压缩包

bash 复制代码
[root@hadoop1 ~]# tar -czf test.tar.gz hadoop-2.7.7.tar.gz
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -put test.tar.gz /input
[root@hadoop1 ~]# /usr/local/hadoop/bin/hadoop fs -ls /input
bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs dfsadmin -report   //HDFS集群信息
Name: 192.168.1.51:50010 (node-0001)
DFS Used: 220584781 (210.37 MB)    //HDFS占用的磁盘空间
Name: 192.168.1.52:50010 (node-0002)
DFS Used: 220552013 (210.33 MB)
Name: 192.168.1.53:50010 (node-0003)
DFS Used: 258048 (252 KB)
Name: 192.168.1.54:50010 (newnode)
DFS Used: 36864 (36 KB)

步骤2:删除节点

① 配置HDFS配置文件(hdfs-site.xml),数据迁移(hadoop1操作,无需同步)

bash 复制代码
[root@hadoop1 ~]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
    <property>
        <name>dfs.hosts.exclude</name>
        <value>/usr/local/hadoop/etc/hadoop/exclude</value>   //移除节点列表文件
    </property>

② 编写移除节点列表文件

bash 复制代码
[root@hadoop1 ~]# echo newnode > /usr/local/hadoop/etc/hadoop/exclude

③ 迁移数据

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs dfsadmin -refreshNodes

④ 查看HDFS集群DataNode节点的状态

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs dfsadmin -report

Decommission Status三种状态

    • Normal:正常状态
    • Decommissioned in progress:数据正在迁移
    • Decommissioned:数据迁移完成

注意:仅当节点状态为 Decommissioned时才能stop下线

⑤ 删除Datanode和NodeManager节点(newnode操作)

bash 复制代码
[root@newnode ~]# /usr/local/hadoop/sbin/hadoop-daemon.sh stop datanode
stopping datanode
[root@newnode ~]# /usr/local/hadoop/sbin/yarn-daemon.sh stop nodemanager
stopping nodemanager

⑥ 等待一段时间,查看集群状态

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs dfsadmin -report
bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/yarn node -list

补充:在删除节点后,查看集群状态依旧还有该节点的信息,因为集群节点认为损坏节点失联,并不会将其立即移除,需要等待一段周期才会移除;

三、NFS网关概述

1)NFS网关的用途

相当于代理的作用,非网络文件系统

    • 用户可以通过操作系统兼容的本地NFSv3客户端来浏览HDFS文件系统;
    • 用户可以通过挂载点直接流化数据;
    • 允许HDFS作为客户端文件系统的一部分被挂载;
    • 支持文件附加,但是不支持随机写(Nolock)
    • NFS网关目前只支持NFSv3和TCP协议(version=3,protocol=tcp)

2)代理用户

    • 代理用户是NFS网关访问集群的授权用户,需要在NameNode和NFSGW上添加代理用户,代理用户的UID、GID、用户名必须完全相同;
    • 如果因特殊原因,用户UID、GID、用户名不能保持一致,需要配置nfs.map的静态映射关系;

例如:

注意事项:

NFS网关架构图:


网关代理用户授权示例:

步骤1:购买1台云主机

|-------|--------------|----------|
| 主机名称 | IP地址 | 相关配置 |
| nfsgw | 192.168.1.55 | 最低配置2核4G |

步骤2:添加代理用户nfsuser(hadoop1、nfsgw操作)

bash 复制代码
[root@hadoop1 ~]# groupadd -g 800 nfsuser
[root@hadoop1 ~]# useradd -g 800 -u 800 -r -d /var/hadoop nfsuser
[root@hadoop1 ~]# id nfsuser
uid=800(nfsuser) gid=800(nfsuser) groups=800(nfsuser)

[root@nfsgw ~]# groupadd -g 800 nfsuser
[root@nfsgw ~]# useradd -g 800 -u 800 -r -d /var/hadoop nfsuser
[root@nfsgw ~]# id nfsuser
uid=800(nfsuser) gid=800(nfsuser) groups=800(nfsuser)

步骤3:HDFS集群授权代理用户(hadoop1操作)

① 配置核心配置文件(core-site.xml),授权代理用户

bash 复制代码
[root@hadoop1 ~]# vim /usr/local/hadoop/etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop</value>
    </property>
    <property>
        <name>hadoop.proxyuser.nfsuser.groups</name>    //挂载点组授权
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.nfsuser.hosts</name>   //挂载点主机授权
        <value>*</value>
    </property>
</configuration>

② 停止集群所有服务

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/sbin/stop-all.sh

③ 同步NameNode的/usr/local/hadoop/配置文件到所有节点

bash 复制代码
[root@hadoop1 ~]# for i in node-{0001..0003};do
> rsync -avXSH /usr/local/hadoop/ ${i}:/usr/local/hadoop/
> done

④ 启动HDFS服务

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/sbin/start-dfs.sh

补充:配置NFS网关,可不用启动NodeManager计算节点

⑤ 验证角色

bash 复制代码
[root@hadoop1 ~]# jps

⑥ 验证HDFS集群

bash 复制代码
[root@hadoop1 ~]# /usr/local/hadoop/bin/hdfs dfsadmin -report

3)NFSGW网关服务

    • portmap服务(与系统rpcbind冲突)
    • nfs3服务(与系统nfs冲突)

补充:nfsgw网关服务是Hadoop定制服务,与系统的NFS服务会有冲突,需卸载;

4)HDFS客户数授权NFSGW服务

① nfs.exports授权

    • nfs.exports.allowed.hosts
    • 默认情况下,export可以被任何客户端挂载,为了更好的控制访问,可以设置属性;值和字符串对应机器名和访问策略,通过空格来分割,机器名的格式可以是单一的主机、Java的正则表达式或者IPv4地址;使用rw或ro可以指定导出目录的读写或只读权限;默认设置为只读权限。

② nfs.dump配置

    • nfs.dump.dir
    • 用户需要更新文件转储目录参数,NFS客户端经常重新安排写操作,顺序的写操作会随机到达NFS网关,这个目录常用于临时存储无序的写操作,对于每个文件,无序的写操作会在他们积累在内存中超过一定阈值(如,1M)时被转储,需要确保有足够的空间的目录,NFS网关在设置该属性后需要重启;

步骤4:搭建NFS网关服务(nfsgw操作)

① 卸载nfs-utils、rpcbind服务

bash 复制代码
[root@nfsgw ~]# yum remove -y rpcbind nfs-utils

② 配置主机名解析

NFS网关具有双重角色,即是NFS服务器,又是HDFS客户端程序,所以NFS网关必须能访问到集群中的所有节点;

bash 复制代码
[root@nfsgw ~]# vim /etc/hosts
192.168.1.50    hadoop1
192.168.1.51    node-0001
192.168.1.52    node-0002
192.168.1.53    node-0003
192.168.1.55    nfsgw

③ 安装JAVA运行环境

bash 复制代码
[root@nfsgw ~]# yum install -y java-1.8.0-openjdk-devel

④ 同步NameNode的hadoop安装目录到nfsgw主机(配置HDFS客户端)

bash 复制代码
[root@nfsgw ~]# rsync -aXSH --delete hadoop1:/usr/local/hadoop /usr/local/
[root@nfsgw ~]# ls /usr/local/hadoop/

⑤ 修改HDFS配置文件(hdfs-site.xml)

bash 复制代码
[root@nfsgw ~]# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop1:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop1:50090</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.hosts.exclude</name>
        <value>/usr/local/hadoop/etc/hadoop/exclude</value>
    </property>
    <property>
        <name>nfs.exports.allowed.hosts</name>    //访问策略及读写权限
        <value>* rw</value>    //所有节点可读写
    </property>
    <property>
        <name>nfs.dump.dir</name>   //文件转储目录
        <value>/var/nfstmp</value>  //存放临时无序写操作目录
    </property>
</configuration>

⑥ 创建转储目录(细节)

bash 复制代码
[root@nfsgw ~]# mkdir /var/nfstmp

⑦ 为代理用户授权(细节)

bash 复制代码
[root@nfsgw ~]# chown nfsuser.nfsuser /var/nfstmp

⑧ 在日志文件夹为代理用户授权(细节)

bash 复制代码
[root@nfsgw ~]# rm -rf /usr/local/hadoop/logs/*
[root@nfsgw ~]# setfacl -m user:nfsuser:rwx /usr/local/hadoop/logs
[root@nfsgw ~]# getfacl /usr/local/hadoop/logs

5)注意事项:

① 启动Portmap服务需使用root用户(portmap端口号111小于1024)

② 启动nfs3服务需要使用core-site里面设置的代理用户

③ 必须为代理用户授权:

    • /var/nfstmp不授权,上传文件会出错;
    • /usr/local/hadoop/logs不授权,看不到报错日志

④ 必须先启动portmap之后再启动nfs3服务,如果portmp重启了,在重启后nfs3也必须重启;

步骤5:启动NFS网关服务

① 启动portmap服务(检查系统rpcbind服务确保已停止卸载)

bash 复制代码
[root@nfsgw ~]# cd /usr/local/hadoop/
[root@nfsgw hadoop]# ./sbin/hadoop-daemon.sh --script ./bin/hdfs start portmap
bash 复制代码
[root@nfsgw hadoop]# jps    // 验证角色

② 启动nfs3服务

bash 复制代码
[root@nfsgw hadoop]# rm -rf /tmp/.hdfs-nfs/
[root@nfsgw hadoop]# sudo -u nfsuser ./sbin/hadoop-daemon.sh --script ./bin/hdfs start nfs3   //使用代理用户启动nfs3服务
bash 复制代码
[root@nfsgw hadoop]# sudo -u nfsuser jps     //验证角色

6)挂载NFS网关相关选项

    • vers=3 //目前NFS只能使用v3版本
    • proto=tcp //仅使用TCP作为传输协议
    • nolock //不支持随机写NLM
    • noatime //禁用access time的时间更新
    • noacl //禁用acl扩展权限
    • sync //同步写入,避免重排序写入

步骤6:验证挂载NFS网关(newnode操作)

① 安装依赖软件包

bash 复制代码
[root@newnode ~]# yum install -y nfs-utils
[root@newnode ~]# showmount -e 192.168.1.55
Export list for 192.168.1.55:
/ *

② 挂载HDFS目录到本地/mnt文件夹

bash 复制代码
[root@newnode ~]# mount -t nfs -o vers=3,proto=tcp,nolock,noacl,noatime,sync 192.168.1.55:/ /mnt/
[root@newnode ~]# df -h

小结:

本篇章节为**【第五阶段】ARCHITECTURE-DAY4**的学习笔记,这篇笔记可以初步了解 HDFS文件系统的使用,调用Hadoop集群分析数据、Hadoop集群的维护、NFS网络配置管理。


Tip:毕竟两个人的智慧大于一个人的智慧,如果你不理解本章节的内容或需要相关笔记、视频,可私信小安,请不要害羞和回避,可以向他人请教,花点时间直到你真正的理解。

相关推荐
何遇mirror20 分钟前
云原生基础-云计算概览
后端·云原生·云计算
Java 第一深情1 小时前
零基础入门Flink,掌握基本使用方法
大数据·flink·实时计算
我的K84091 小时前
Flink整合Hudi及使用
linux·服务器·flink
MXsoft6181 小时前
华为服务器(iBMC)硬件监控指标解读
大数据·运维·数据库
1900431 小时前
linux6:常见命令介绍
linux·运维·服务器
Camellia-Echo2 小时前
【Linux从青铜到王者】Linux进程间通信(一)——待完善
linux·运维·服务器
Linux运维日记2 小时前
k8s1.31版本最新版本集群使用容器镜像仓库Harbor
linux·docker·云原生·容器·kubernetes
嚯——哈哈2 小时前
轻量云服务器:入门级云计算的最佳选择
运维·服务器·云计算
我是唐青枫2 小时前
Linux dnf 包管理工具使用教程
linux·运维·服务器
PersistJiao2 小时前
Spark 分布式计算中网络传输和序列化的关系(二)
大数据·网络·spark·序列化·分布式计算