Hadoop完全分布式的搭建
环境准备:
(1)VMware Workstation Pro17(其他也可)
(2)Centos7
(3)FinalShell
(一)模型机配置
0 ****)安装模板虚拟机,IP地址192.168.10.100 、主机名称node1 、内存4G、硬盘****40G
网络环境及基础环境准备:
1)修改VMware的网络虚拟器:将子网ip设置在统一的字段,我统一设置为10
data:image/s3,"s3://crabby-images/65405/65405020a7fb0d9a0ac0126a9447f2b1d793cf5e" alt=""
图片1
data:image/s3,"s3://crabby-images/cb4af/cb4af1993b9c5273e8e287cf49ea0eed63e43771" alt=""
图片2
data:image/s3,"s3://crabby-images/cbe5e/cbe5eca8626246231d17c7347d745f9d10a4d31c" alt=""
图片3
点击确定
(2)修改电脑的VMent8:也统一在 10这个字段
在搜索栏搜索查看网络连接
data:image/s3,"s3://crabby-images/2e4e1/2e4e1768c932f80ff50d94e7c9dca3092a9b2950" alt=""
图片4
找到VMnet8
data:image/s3,"s3://crabby-images/c5540/c554053ca878822ccc305165eb4fe7448d54f4fa" alt=""
图片5
右击,选择属性
data:image/s3,"s3://crabby-images/6839f/6839f03c62426e5affae6e85a038bbdc3178486c" alt=""
图片6
单击Internet协议版本4(TCP/IPv4)
data:image/s3,"s3://crabby-images/d82b2/d82b2ebe93b41dc3c22fe66133ebf612d02849bf" alt=""
图片7
修改相应的IP地址,默认网关,和刚才虚拟机中的保持统一字段,在本文中统一为10.
添加DNS服务器如图所示
data:image/s3,"s3://crabby-images/d8c4a/d8c4ab15e79ce589b6d8d03c3cbdc099924e24b1" alt=""
图片8
修改Centos 里的ip,将动态地址改为静态
进入到centos7,用root用户登录,修改ifcfg-ens33文件,将其中BOOTPROTO的参数从动态改为静态,并添加对应的IP,依然与刚才前两步保持统一字段
data:image/s3,"s3://crabby-images/af680/af68032406c0d59461bc81bb7c5bedb09f4c2d69" alt=""
图片9
vim /etc/sysconfig/network-scripts/ifcfg-ens33
data:image/s3,"s3://crabby-images/34dcb/34dcb0dc73fe9246b0d28ce3587bc1d32c3e9515" alt=""
图片10
ping一下百度表示网络可用,若失败则需检查相应的问题。网络要通才可进行后续操作。
data:image/s3,"s3://crabby-images/43850/43850a80997b9ea5e5660d65c7570d2cf4e532d6" alt=""
图片11
修改主机名称为Master01
vim /etc/hostname
data:image/s3,"s3://crabby-images/b493a/b493a335531229aa879dfcdc7d8068c9cfbc926e" alt=""
图片12
将文件内容改成Master01
将接下来预计要进行连接的虚拟机ip都入加入到hosts文件,根据自己需要搭建的集群数量决定,本文的Master01用于伪分布式搭建,node1,node2及node3用于完全分布式的搭建,要记录对应的ip地址,以便进行后续操作。
vim /etc/hosts
data:image/s3,"s3://crabby-images/1afa2/1afa2b17906ba43f96a970d7add04de68cfda8e2" alt=""
图片13
(4)连接finallshell
打开准备好的远程连接软件,我们后续将都在此进行操作,因为可直接粘贴复制和传送文件(用xshell也可),此处可用root登录也可用普通用户,后续因为yarn的使用,需要用普通用户连接。根据自己的主机ip和密码连接。
data:image/s3,"s3://crabby-images/5ccdf/5ccdfe912cd9f5791dd353d1e88c82590ea54633" alt=""
图片14
连接成功
data:image/s3,"s3://crabby-images/ac9f6/ac9f6e6b28c975f314f70561c346ed944ec81f96" alt=""
图片15
(5)更换阿里云镜像:执行以下命令
a.备份官方的原yum源的配置
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
b.下载Centos-7.repo文件
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
c.脚本配置本地源
找个目录,创建脚本文件:
本人以/root/目录为例
vi /root/auto_aliyun.sh
编写如下内容:
#!/bin/bash
# 备份官方的原yum源的配置
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
# 下载Centos-7.repo文件,或者curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo,取决于你是否有wget的命令
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
# 清除yum缓存
yum clean all
# 缓存本地yum源
yum makecache
按ESC。输入:wq保存,完成镜像阿里云源的脚本文件的编写
d.赋予脚本可执行的权限
chmod +x /root/auto_aliyun.sh
e.执行脚本文件,即可
/root/auto_aliyun.sh
data:image/s3,"s3://crabby-images/41801/41801b58b65b1f1d1511ee59a25692f3d60698aa" alt=""
图片16
data:image/s3,"s3://crabby-images/2bd12/2bd126de62f68938404204db7e2a655542fc18df" alt=""
图片17
f.安装epel-release
yum install -y epel-release
data:image/s3,"s3://crabby-images/db6ed/db6ed430d28935a0f36b688f2a2ff633ca537910" alt=""
图片18
(6)关闭防火墙
systemctl stop firewalld
systemctl disable firewalld.service
data:image/s3,"s3://crabby-images/739d1/739d12899db5610218b6107f02930959377ba074" alt=""
图片19
(7)将hduser用户(你自己的普通用户)赋予root权限
创建hduser用户,并修改hduser用户的密码
useradd hduser(创建的用户名)
passwd 123456(创建的用户密码)
配置hduser用户具有root权限,方便后期加sudo执行root权限的命令
vim /etc/sudoers
找到图中位置添加:
data:image/s3,"s3://crabby-images/801f8/801f81768b292d9a72f09b2d6666bad8632602ed" alt=""
图片20
保存并退出
在/opt目录下创建module、software文件夹
mkdir /opt/module
mkdir /opt/software
修改module、software文件夹的所有者和所属组均为hduser用户
chown hduser:hduser /opt/module
chown hduser:hduser /opt/software
查看module、software文件夹的所有者和所属组
data:image/s3,"s3://crabby-images/d31c1/d31c16e39d57dec6e09e6aa651a28348a9183776" alt=""
图片21
测试hduser已拥有root权限
data:image/s3,"s3://crabby-images/8f573/8f573b393601ee32ddeb939c6164a65e08a80843" alt=""
图片22
(8)卸载环境自带jdk
查询jdk
jdk rpm -qa | grep -i java
data:image/s3,"s3://crabby-images/82c43/82c43fd2f4bd215628b770a46ba1e78fb6aac1e5" alt=""
图片23
卸载jdk
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
注意:如果你的虚拟机是最小化安装不需要执行这一步。
- rpm -qa:查询所安装的所有rpm软件包
- grep -i:忽略大小写
- xargs -n1:表示每次只传递一个参数
- rpm -e --nodeps:强制卸载软件
查询
data:image/s3,"s3://crabby-images/725a3/725a38cf960b9ff1108877f020d07d9b8265d9ed" alt=""
图片24
重启虚拟机
[root@Master01?~]# reboot
模型机配置完成
(二)完全分布式搭建
(1)三台虚拟机node1,node2,node3的准备
克隆三台虚拟node1,node2,node3(名称要与前文hosts中一致,注意是完全克隆)
data:image/s3,"s3://crabby-images/0da5a/0da5a34c7a78eb2707226ffe68b60add3f90a5e0" alt=""
图片25
分别修改三台机器的ip和主机名并重启,检查是否修改完成,并检查网络是否可用
Node1
data:image/s3,"s3://crabby-images/810bd/810bd28cc919bf39a49626e48df68488d4afb9cc" alt=""
图片26
data:image/s3,"s3://crabby-images/4ecad/4ecad2cf08445cc27dc591bd5382dae2b1f0dfb6" alt=""
图片27
Node2
data:image/s3,"s3://crabby-images/643e0/643e06a07e239d34188e09fcae644620be8219fa" alt=""
图片28
data:image/s3,"s3://crabby-images/5a8f6/5a8f6b7fc870b2d8f2dcf74fa904742d5b423c6e" alt=""
图片29
Node3
data:image/s3,"s3://crabby-images/6b940/6b9406bf203ef103532a165ab1aa3d9a79191671" alt=""
图片30
data:image/s3,"s3://crabby-images/d8723/d872389053e7c364e90b7977b059f4adad76aacb" alt=""
图片31
将三台主机均按前面方法连接finalshell
data:image/s3,"s3://crabby-images/c76b1/c76b12a8ddcdc7bdbee7e5b54fb26956c9579d42" alt=""
图片32
data:image/s3,"s3://crabby-images/6a33c/6a33c5e8cc12ce46cb6bf84e728d626e66161eab" alt=""
图片33
data:image/s3,"s3://crabby-images/df61a/df61a7b4dddf01a40a151f7878b6127c2f3e7758" alt=""
图片34
(2)给node1安装jdk
将下好的jdk和hadoop利用finallshell传到node1中,在finallshell的文件中找到之前建立的software文件夹,直接拖入。
data:image/s3,"s3://crabby-images/3a4ed/3a4ed10608852424d1257e4ab44e2830e38df5ea" alt=""
图片35
进入到software文件夹,查看tar包已经存在。
data:image/s3,"s3://crabby-images/dd8a7/dd8a7d221e84bc1a3e45266009c6c88c6a2a1b90" alt=""
图片36
解压缩:
tar -zxvf jdk-8u202-linux-x64.tar.gz -C /opt/module/
data:image/s3,"s3://crabby-images/a8c54/a8c54b1ed732ac7aeb317372d94e0af818a2ca25" alt=""
图片37
进入到module目录,已经存在jdk。
data:image/s3,"s3://crabby-images/75d0a/75d0a179bb80f1a9a5dfd945c1dd479a834ace6f" alt=""
图片38
(3)配置JAVA_HOME
在/etc/profile.d/中创建my_env.sh,填写以下内容:
vim /etc/profile.d/my_env.sh
data:image/s3,"s3://crabby-images/bc564/bc5649b4b5c484f07d70b4650e5343a02b08560b" alt=""
图片39
保存后运行,java配置成功。
source /etc/profile
执行java语句出现以下内容
data:image/s3,"s3://crabby-images/a489a/a489a620f50b371e74bebfb871da80d4d2637fde" alt=""
图片40
(4)安装hadoop:
解压hadoop至/etc/module
tar -zxvf hadoop-3.2.4.tar.gz -C /opt/module/
data:image/s3,"s3://crabby-images/41a04/41a04bcda7152b00287a5bc9bac049e081dd1313" alt=""
图片41
进入到hadoop中配置环境变量
data:image/s3,"s3://crabby-images/f8757/f8757724ab777895cc780be3ea9d5f5f3035f995" alt=""
图片42
在之前创建的my_env.sh中添加以下内容
vim /etc/profile.d/my_env.sh
data:image/s3,"s3://crabby-images/1adfd/1adfd906e921675c9373b8f0c9e36514439e3a73" alt=""
图片43
source /etc/profile?
运行
命令行输入hadoop,出现以下内容配置完成
data:image/s3,"s3://crabby-images/58321/5832152cccdbb2eae52acab07279ae4cd461d689" alt=""
图片44
(5)将node1中的jdk和hadoop复制到node2和node3上
data:image/s3,"s3://crabby-images/14c89/14c89066ddf9ac53bad97d9180269b2238267e61" alt=""
图片45
data:image/s3,"s3://crabby-images/3c1b8/3c1b8a7e334a682deb24edeeb8cf372de004282d" alt=""
图片46
集群分配脚本的编写:
创建一个脚本xsync,并将其配置在环境变量中,内容如下
注意是在hduser用户的bin目录下:
data:image/s3,"s3://crabby-images/51d74/51d7429689d91c1b188f465cb6f5935898c55fe4" alt=""
图片47
建立一个xsync文件,输入以下内容保存
#!/bin/bash
#1. 判断参数个数
if?[?$#?-lt?1?]
then
????echo?Not?Enough?Arguement!
????exit;
fi
#2. 遍历集群所有机器
for?host?in?node1?node2?node3
do
????echo?====================??$host??====================
????#3. 遍历所有目录,挨个发送
????for?file?in?$@
????do
????????#4. 判断文件是否存在
????????if?[?-e?$file?]
????????????then
????????????????#5. 获取父目录
????????????????pdir=$(cd?-P?$(dirname?$file);?pwd)
????????????????#6. 获取当前文件的名称
????????????????fname=$(basename?$file)
????????????????ssh?$host?"mkdir -p $pdir"
????????????????rsync?-av?$pdir/$fname?$host:$pdir
????????????else
????????????????echo?$file?does?not?exists!
????????fi
????done
done
注意以下内容修改成自己对应的主机名字
data:image/s3,"s3://crabby-images/8726e/8726e7f5ad2497a3b18a85a5fe9d42e0c0f30d2c" alt=""
图片48
进入到相应的目录,找到相应的bin目录,查询刚才建立的xsync文件,注意是hduser下的bin目录。
data:image/s3,"s3://crabby-images/d1da9/d1da9e548e3f9c1c42517554ec0246936478b06e" alt=""
图片49
vim xsync
data:image/s3,"s3://crabby-images/c949f/c949fe7ee6748bf6fe3d87fb8965f75de95a8894" alt=""
图片50
赋予xsync相应权限
chomd 777 xsync
发现文件变绿
data:image/s3,"s3://crabby-images/9716b/9716b8b43ac82f2ef0171fbebd28a9da9e526560" alt=""
图片51
利用xsync脚本将环境变量分发到node2和node3中
sudo ./bin/xsync /etc/profile.d/my_env.sh
data:image/s3,"s3://crabby-images/c3077/c3077ecd5a62ddb41c37fe785cb98f8a08d0fc3e" alt=""
图片52
让环境变量生效
[hduser@node2?bin]$ source /etc/profile
[hduser@node2?opt]$ source /etc/profile
-
ssh免密登录设置
cd .ssh/
cat known_hosts
data:image/s3,"s3://crabby-images/76b95/76b954023711ebf80765b253f830b3496fb4cd99" alt=""
图片53
[hduser@node1?.ssh]$ssh-keygen -t rsa?
然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)
data:image/s3,"s3://crabby-images/9bb87/9bb87a8b4fe4dc4e4a837c85539af8999d7b9dd9" alt=""
图片54
将公钥拷贝到要免密登录的目标机器上
data:image/s3,"s3://crabby-images/8d929/8d929ec4baeedf7e2e893c07ae06522eb13e34e1" alt=""
图片55
ssh node2后免密登录成功
data:image/s3,"s3://crabby-images/e0723/e07235c4f8d9228278258725512000c92124900f" alt=""
图片56
第三台机器同理
data:image/s3,"s3://crabby-images/2c82e/2c82e7f2307f2ed712c949bceab7befd0794428d" alt=""
图片57
(三)配置集群
(1)核心配置文件
cd $HADOOP_HOME/etc/hadoop
vim core-site.xml
data:image/s3,"s3://crabby-images/5cbee/5cbeee5cad39cff27f0ce559c414161c0a305c2a" alt=""
图片58
core-site.xml文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 NameNode 的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:8020</value>
</property>
<!-- 指定 hadoop 数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.2.4/data</value>
</property>
<!-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>hduser</value>
</property>
</configuration>
data:image/s3,"s3://crabby-images/c5723/c5723fa5e16794a0f5767a62d2557435e0a07e51" alt=""
图片59
(2)HDFS 配置文件
配置 hdfs-site.xml
vim hdfs-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- nn web 端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>node1:9870</value>
</property>
<!-- 2nn web 端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node3:9868</value>
</property>
</configuration>
data:image/s3,"s3://crabby-images/7c19e/7c19ea7af440086c13bb387260ebb60d18c7406d" alt=""
图片60
(3)YARN 配置文件
配置 yarn-site.xml
vim yarn-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MR 走 shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node2</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOME</value>
</property>
</configuration>
data:image/s3,"s3://crabby-images/f3fa5/f3fa5fc90dcc7c68a64ccd645f26fbb0518ba6b2" alt=""
图片61
(4)MapReduce 配置文件
配置 mapred-site.xml
vim mapred-site.xml
文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
data:image/s3,"s3://crabby-images/165e4/165e424a12a6aeed0dc6e898b598403837a979ca" alt=""
图片62
****5)****在集群上分发配置好的 Hadoop 配置文件
xsync /opt/module/hadoop- 3.2.4/etc/hadoop/
data:image/s3,"s3://crabby-images/b0d42/b0d426ed6b5f95cd51e6b1946db59a3cec1cdf49" alt=""
图片63
6)去 node2和 node3上查看文件分发情况
cat /opt/module/hadoop-3.2.4/etc/hadoop/core-site.xml
编辑workers文件
vim?/opt/module/hadoop-3.2.4/etc/hadoop/workers
在该文件中增加如下内容:
data:image/s3,"s3://crabby-images/26212/26212eceeed09c2e3166f65b36674b70167175e6" alt=""
图片64
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
同步所有节点配置文件
xsync /opt/module/hadoop-3.2.4/etc
启动集群
(1)如果集群是第一次启动,需要在node1节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。)
[hduser@node1?hadoop-3.2.4]$ hdfs namenode -format
data:image/s3,"s3://crabby-images/8937d/8937d59a918940a3aeca5f8ec699d1b3aaae8a87" alt=""
图片65
(2)启动HDFS
[hduser@node1?hadoop-3.2.4]$ sbin/start-dfs.sh
data:image/s3,"s3://crabby-images/28eaf/28eaf8a53c8d3166322df59a8cbe5b1365f2be8a" alt=""
图片66
(3)****在配置了ResourceManager的节点(node2)****启动YARN
[hduser@node1?hadoop-3.2.4]$ sbin/start-yarn.sh
Web端查看HDFS的NameNode
浏览器中输入:http://node1:9870
(4)查看HDFS上存储的数据信息
Web端查看YARN的ResourceManager
浏览器中输入:http://node2:8088
(b)查看YARN上运行的Job信息
验证HDFS是否成功启动,可以使用jps命令查看Java进程,确认NameNode和DataNode等进程是否运行。
data:image/s3,"s3://crabby-images/d2e9d/d2e9d2e958352f89212aeb144267130ca4e5e7d0" alt=""
图片67
data:image/s3,"s3://crabby-images/32dd9/32dd9975fe946894cd1fb63b0cc3014a8907af63" alt=""
图片68
data:image/s3,"s3://crabby-images/81942/81942f1ba1adbdc6ca600b5d363ae522b4947ee8" alt=""
图片69
完全分布式搭建完成。