Hadoop 集群环境搭建

++[第一部分：系统安装... 3](#第一部分：系统安装... 3)++

[1：图形化安装... 3](#1：图形化安装... 3)

[2：选择中文... 3](#2：选择中文... 3)

[3：安装选项... 3](#3：安装选项... 3)

[4：软件选项... 4](#4：软件选项... 4)

[5：安装位置... 4](#5：安装位置... 4)

[6：网络配置... 6](#6：网络配置... 6)

[7：开始安装... 7](#7：开始安装... 7)

[8：创建用户... 7](#8：创建用户... 7)

[9：重启系统... 7](#9：重启系统... 7)

[10：登录测试... 8](#10：登录测试... 8)

++[第二部分：初始化设置... 9](#第二部分：初始化设置... 9)++

[1：SSH远程登录... 9](#1：SSH远程登录... 9)

[2：yum 源更新... 9](#2：yum 源更新... 9)

[3：安装vim和wget. 11](#3：安装vim和wget. 11)

[4：增加test 用户权限... 12](#4：增加test 用户权限... 12)

[5：修改主机 /tec/hosts 文件... 14](#5：修改主机 /tec/hosts 文件... 14)

[6：配置test 账户免密ssh 登录... 15](#6：配置test 账户免密ssh 登录... 15)

[7：防火墙设置开机关闭... 17](#7：防火墙设置开机关闭... 17)

++[第三部分：Java jdk 安装配置... 19](#第三部分：Java jdk 安装配置... 19)++

[1：检查JAVA状态... 19](#1：检查JAVA状态... 19)

[2：安装JAVA 1.8. 19](#2：安装JAVA 1.8. 19)

[3：配置环境变量... 20](#3：配置环境变量... 20)

++[第四部分：Hadoop 集群安装... 22](#第四部分：Hadoop 集群安装... 22)++

[1：下载hadoop. 22](#1：下载hadoop. 22)

[2：修改环境变量... 23](#2：修改环境变量... 23)

[3：节点配置... 24](#3：节点配置... 24)

[1：主节点安装（server1）... 24](#1：主节点安装（server1）... 24)

[2：备节点安装（server2 server3）... 28](#2：备节点安装（server2 server3）... 28)

++[第五部分：Hadoop 状态检查和常用命令... 31](#第五部分：Hadoop 状态检查和常用命令... 31)++

[1：网页状态查看... 31](#1：网页状态查看... 31)

[2：控制台命令... 32](#2：控制台命令... 32)

[1：常用排查故障命令... 32](#1：常用排查故障命令... 32)

[2：常用基础命令... 32](#2：常用基础命令... 32)

[3：HDFS命令（Hadoop分布式文件系统）... 32](#3：HDFS命令（Hadoop分布式文件系统）... 32)

[4：MapReduce作业运行命令... 33](#4：MapReduce作业运行命令... 33)

[5：YARN（Yet Another Resource Negotiator）命令... 33](#5：YARN（Yet Another Resource Negotiator）命令... 33)

[6：Hadoop集群管理命令... 33](#6：Hadoop集群管理命令... 33)

[7：Hadoop配置文件管理命令... 33](#7：Hadoop配置文件管理命令... 33)

第一部分：系统安装

大致过程：软件安装选择-------磁盘分区-------IP地址设置-----用户名密码设置

1：图形化安装

这里选择图形化安装。

2：选择中文

选择语言为中文。

3：安装选项

设置对应的安装选项。

4：软件选项

选择最小安装和系统管理工具。

5：安装位置

选择对应的磁盘并手动配置磁盘各分区大小。

点击自动创建

调整 /home 分区和/ 分区的大小,因为Hadoop默认的存储路径是在/目录下，所以/目录需要分配大一点。

分配后的各部分大小。

6：网络配置

手动指定IP地址和主机名。

215三台分别是192.168.1.190/191/192

7：开始安装

8：创建用户

创建root密码和用户，简单密码需要保存2次，密码安全测试环境不涉及，

9：重启系统

重启系统后就完成安装了。

10：登录测试

登录系统检测账号密码是否可以登录：

su -l root 切换到root账户

测试网络是否正常：

ping 223.5.5.5（223.5.5.5是阿里的公共DNS服务器地址）

以上完成操作系统的安装。

第二部分：初始化设置

yum update 更新-----vim wget 安装-----sudo 文件增加用户名----/etc/hosts 文件配置3台机器主机名解析---------SSH 免密登录配置------关闭防火墙设置

1：SSH远程登录

使用WindTerm的窗口水平分割和同步输入进行3台机器同时操作，节省时间。

2：yum 源更新

切换到root 账户，使用 yum update, 中间出现确认选项使用 y 确认。

命令：

yum update

更新完成

3：安装vim和wget

vim是文档编辑工具，wget 是下载HTTP的工具。

命令：(root用户模式下)中间出现确认选项使用 y 确认。

yum install vim

yum install wget

4：增加test 用户权限

vi和vim 基础操作。进入后 i和（insert）按键进入插入模式，esc 进入：模式

：行数 ===去到某一行

：wq ====保存修改

：wq! ====强制保存修改

：q ====退出

：q: ====强制退出

去往第100行。

新增test 用户权限，test 为之前创建的用户。

：wq 进行保存。

5：修改主机 /tec/hosts 文件

命令：

vim /etc/hosts

新增主机名和ip地址对应关系，ip地址根据实际地址（这里是我的内网地址）

修改完成后直接ping 主机名进行测试，通了代表修改成功。

6：配置test 账户免密ssh 登录

Hadoop 默认在非root账户下运行，所以需要返回 test 账户下，使用exit 退出

命令：

cd ~/.ssh/

进入test用户的ssh目录，提示无当前目录，使用ssh 随便远程一台机器即可产生目标目录，使用no 不保存密钥。然后就可以进入~/.ssh/ 目录了

命令：

ssh-keygen -t rsa

生成密钥，会出现一些提示，这里要连续按多次回车，直到它出现一个如下图所示的框框。

cat id_rsa.pub >> authorized_keys

chmod 600 ./authorized_keys

加入授权和修改文件权限。

分别使用以下命令拷贝ssh 秘钥，按提示输入 yes 和密码。

命令：

ssh-copy-id test@10.10.10.190

ssh-copy-id test@10.10.10.191

ssh-copy-id test@10.10.10.192

这里是3台机器相互拷贝对方的秘钥，因为我这里使用的是同步输入，每台机器都有自身的秘钥，所以这里有个报错，可以不用管，直接输入密码既可以。（以server3为例server1和server2 需要拷贝server3的密钥，这里提示要是否保存，输入yes 保存，然后输入test 用户密码即可，因为server3不用输入密码，所以这里直接进入了$ 输入模式，这个是正常的，其他2台这里也是一样的）

拷贝完成进行测试，分别使用域名和ip地址测试登录其他机器是否需要输入密码。

命令：

ssh test@server1

ssh test@10.10.10.190

我这里是使用的同步输入，每次都进入相同的服务器，这里可以看到每次都成功了。

7：防火墙设置开机关闭

命令：

sudo systemctl stop firewalld

sudo systemctl disable firewalld

接下来重启下服务器。准备安装java。

第三部分：Java jdk 安装配置

JAVA 安装------环境变量设置-----安装完成后检查

1：检查JAVA状态

切换root账户，输入命令java -version查看当前Java版本。（注意-）我这里显示未安装。

命令：

java -version

2：安装JAVA 1.8

Hadoop在1.7版本或1.8版本都可以，这是是安装的1.8版本的。

命令：

sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel

安装完成后检查一下

3：配置环境变量

输入vim ~/.bashrc我们在.bashrc中进行环境变量设置。

命令：

vim ~/.bashrc

进入文本后，在 # User specific aliases and functions下面加上如下一行：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

这里的JAVA_HOME的值是当前JDK的安装位置。添加上后就:wq保存退出。

输入source ~/.bashrc让刚才的变量设置生效。

命令：

source ~/.bashrc

完成以上操作后，我们输入如下命令进行检查。

命令：

java -version

$JAVA_HOME/bin/java --version

如下图所示，两个命令的输出结果一样，就没有问题。

以上显示java 安装成功。黄色地方报错的原因是 -version 的 - 不对，修改后就可以了运行了。

以上完成了java 的安装。

第四部分：Hadoop 集群安装

1：下载hadoop

(此处一定要切换回 test 账户，否则hadoop 启动不了)

退出到test 账户下，下载hadoop。

命令：

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

tar -xzvf hadoop-3.3.1.tar.gz

sudo mv hadoop-3.3.1 /usr/local/hadoop

2：修改环境变量

编辑用户的 ~/.bashrc 文件：，在文件末尾添加以下行：

命令：

vim ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop

export PATH= $PATH:$ HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存并退出，然后执行命令：

source ~/.bashrc

3：节点配置

这里主节点和其他节点配置不一样，所以关闭了同步输入

1：主节点安装（server1）

1.1：查询java 的程序位置

命令：

sudo update-alternatives --config java

记录当前路径：/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.392.b08-2.el7_9.x86_64/jre

1.2：编辑 Hadoop 环境配置文件：

命令：

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

添加以下内容： java 路径替换为上面记录的。

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.392.b08-2.el7_9.x86_64/jre

export HADOOP_HOME_WARN_SUPPRESS=true

1.3：配置 Hadoop 核心文件

命令：

vim /usr/local/hadoop/etc/hadoop/core-site.xml

添加以下内容： hdfs://10.10.10.190:9000 替换成对应的地址。

<name>fs.defaultFS</name>

</property>

</configuration>

1.4：配置 HDFS 文件系统

命令：

vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

添加以下内容：

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/data/datanode</value>

</property>

</configuration>

1.5：配置 YARN 资源管理器

命令：

vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

添加以下内容： 10.10.10.190 替换成对应的地址

<name>yarn.resourcemanager.hostname</name>

</property>

</configuration>

1.6：创建 HDFS 目录

命令：

hdfs namenode -format

1.7：启动 Hadoop 服务

命令：

start-dfs.sh

start-yarn.sh

主节点（server1）的hadoop 安装完成。

1.8：查看主节点状态

命名：

hdfs dfsadmin -report

2：备节点安装（server2 server3）

2.1: 从主节点复制 Hadoop 配置到从节点

命令：

scp -r 10.10.10.190:/usr/local/hadoop/etc/hadoop/* /usr/local/hadoop/etc/hadoop/

10.10.10.190修改为对应主节点ip地址

2.2：启动 Hadoop 服务

命令：

start-dfs.sh

start-yarn.sh

2.3：查看主节点状态

命名：

hdfs dfsadmin -report

以上就完成hadoop 3台机器集群环境的安装

第五部分：Hadoop 状态检查和常用命令

1：网页状态查看

YARN ResourceManager Web 用户界面 http://10.10.10.190:8088

Hadoop节点信息 http://10.10.10.190:9870

2：控制台命令

1：常用排查故障命令

验证一下集群的状态：hdfs dfsadmin -report

列出 HDFS 上的文件：hdfs dfs -ls

本地文件上传到 HDFS：hdfs dfs -put /path/to/local/file /user/test/

获取节点的主机名或 IP 地址：hdfs dfsadmin -report | grep "Name:"

强制 Hadoop 刷新节点列表： hdfs dfsadmin -refreshNodes

2：常用基础命令

3：HDFS命令（Hadoop分布式文件系统）

上传文件到HDFS:

hdfs dfs -put <local-source> <hdfs-destination>

从HDFS下载文件:

hdfs dfs -get <hdfs-source> <local-destination>

列出HDFS目录内容:

hdfs dfs -ls <hdfs-path>

创建HDFS目录:

hdfs dfs -mkdir <hdfs-directory>

删除HDFS文件或目录:

hdfs dfs -rm <hdfs-path>

复制本地文件到HDFS:

hdfs dfs -copyFromLocal <local-source> <hdfs-destination>

4：MapReduce作业运行命令

提交MapReduce作业:

hadoop jar <jar-file> <main-class> <input-path> <output-path>

查看正在运行的MapReduce作业列表:

yarn application -list

5：YARN（Yet Another Resource Negotiator）命令

查看集群节点资源使用情况:

yarn node -list

查看正在运行的应用程序:

yarn application -list

6：Hadoop集群管理命令

启动Hadoop集群:

start-all.sh

停止Hadoop集群:

stop-all.sh

查看Hadoop集群状态:

hadoop dfsadmin -report

7：Hadoop配置文件管理命令

查看Hadoop配置:

hadoop version

查看Hadoop配置文件内容:

cat $HADOOP_HOME/etc/hadoop/core-site.xml