CentOS7搭建Hadoop3集群教程

一、集群环境说明

1、用VMware安装3台Centos7虚拟机

2、虚拟机配置:2C,2G内存,50G存储

3、集群架构设计

从表格中,可以看出,Hadoop集群,主要有2个模块服务,一个是HDFS服务,一个是YARN服务

二、搭建集群

1、安装3台Centos7虚拟机

安装教程:VMware安装Centos7详细教程及初始化配置

三台虚拟机固定IP:192.168.31.110、192.168.31.111、192.168.31.112

三台主机的hostname分别为,hadoop-master,hadoop-slave1,hadoop-slave2

因为3条机器相关配置类似,所以我们先在一台机器上操作完,然后将机器克隆2台即可。

克隆第一台机器master

首先从虚拟机快照中创建一个克隆,我们将先在这台机器(hadoop-master)上操作。

以下均在root用户下操作

修改主机名

bash 复制代码
vim /etc/hostname

hadoop-master

修改hosts文件

bash 复制代码
vim /etc/hosts

192.168.126.110	hadoop-master
192.168.126.111	hadoop-slave1
192.168.126.112	hadoop-slave2

修改ip地址

bash 复制代码
vim /etc/sysconfig/network-scripts/ifcfg-ens33

创建账号

创建hadoop账号,并设置密码为hadoop

bash 复制代码
useradd hadoop
echo hadoop|passwd --stdin hadoop;

配置hadoop账号root权限

bash 复制代码
visudo

末尾添加
hadoop    ALL=(ALL)       NOPASSWD:ALL

安装hadoop

hadoop 3.1.3下载地址:Apache Hadoop

创建两个目录并赋予权限,进入software目录,并将hadoop压缩包上传上去

bash 复制代码
mkdir /opt/module
mkdir /opt/software
chown hadoop:hadoop /opt/module
chown hadoop:hadoop /opt/software
cd /opt/software

切换到hadoop用户,并解压

bash 复制代码
su hadoop
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

回到root用户,配置环境变量

bash 复制代码
exit
cd /etc/profile.d/
 
vim hadoop.sh

#!/bin/bash
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

重新加载环境变量,这样新配置的hadoop环境变量才会生效
source /etc/profile

检查hadoop安装是否成

bash 复制代码
hadoop version

hadoop的4个自定义配置文件及workers配置

切换到hadoop用户,进入到hadoop安装目录

bash 复制代码
su hadoop
cd /opt/module/hadoop-3.1.3
core-site.xml
bash 复制代码
vim etc/hadoop/core-site.xml

配置内容

XML 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop-master:8020</value>
  <description>指定 NameNode 的地址</description>
</property>

<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-3.1.3/data</value>
  <description>指定 Hadoop 数据的存储目录</description>
</property>
</configuration>
hdfs-site.xml
bash 复制代码
vim etc/hadoop/hdfs-site.xml
XML 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop-master:9870</value>
  <description>nn web 端访问地址</description>
</property>

<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hadoop-slave2:9868</value>
  <description>2 nn web 端访问地址</description>
</property>
</configuration>
mapred-site.xml
bash 复制代码
vim etc/hadoop/mapred-site.xml
XML 复制代码
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<property>
	  <name>mapreduce.framework.name</name>
	  <value>yarn</value>
	  <description></description>
	</property>
	
	<property>
	  <name>mapreduce.jobhistory.address</name>
	  <value>hadoop-master:10020</value>
	  <description>历史服务器端地址</description>
	</property>
	
	<property>
	  <name>mapreduce.jobhistory.webapp.address</name>
	  <value>hadoop-master:19888</value>
	  <description>历史服务器 web 端地址</description>
	</property>
</configuration>
yarn-site.xml
bash 复制代码
vim etc/hadoop/yarn-site.xml
XML 复制代码
<?xml version="1.0"?>
<configuration>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>指定 MR 走 shuffle</description>
  </property>
  
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-slave1</value>
    <description>指定 ResourceManager 的地址</description>
  </property> 
  
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    <description>系统环境变量的继承</description>
  </property>
  
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    <description>开启日志聚集功能</description>
  </property>
  
  <property>
    <description>设置日志聚集服务器地址</description>
    <name>yarn.log.server.url</name>
    <value>http://hadoop-master:19888/jobhistory/logs</value>
  </property>
  
  <property>
    <description>设置日志保留时间为 7 天, -1 表示不保存日志</description>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>

</configuration>
配置workers
bash 复制代码
vim etc/hadoop/workers
bash 复制代码
hadoop-master
hadoop-slave1
hadoop-slave2

克隆slave

关闭master,克隆slave1和slave2,并开机

分别修改主机名和ip地址

hadoop-slave1:192.168.126.111

hadoop-slave2:192.168.126.112

bash 复制代码
vim /etc/hostname

hadoop-slave1
bash 复制代码
vim /etc/sysconfig/network-scripts/ifcfg-ens33

slave2类同

配置ssh免密

登录master

配置免密登录slave1,slave2

bash 复制代码
su hadoop
cd							进入当前账号家目录
ssh-keygen					连续三次回车	

ssh-copy-id hadoop-master	复制公钥到master服务器
ssh-copy-id hadoop-slave1	复制公钥到slave1服务器
ssh-copy-id hadoop-slave2	复制公钥到slave2服务器

分别登录slave1,slave2执行以上操作

初始化启动

以下在master上执行

bash 复制代码
cd /opt/module/hadoop-3.1.3
hdfs namenode -format

启动hadoop

启动HDFS服务
bash 复制代码
cd /opt/module/hadoop-3.1.3
sbin/start-dfs.sh
访问web页:http://192.168.126.110:9870
启动YARN服务

登录slave1

bash 复制代码
ssh hadoop-slave1
cd /opt/module/hadoop-3.1.3
sbin/start-yarn.sh

访问页面:http://192.168.126.111:8088/

检查各个集群节点服务

bash 复制代码
jps

集群启动与停止

在master上

bash 复制代码
cd /opt/module/hadoop-3.1.3
sbin/start-dfs.sh
sbin/stop-dfs.sh

在slave1上

bash 复制代码
cd /opt/module/hadoop-3.1.3
sbin/start-yarn.sh
sbin/stop-yarn.sh

测试

bash 复制代码
mkdir /opt/module/hadoop-3.1.3/wcinput
cd /opt/module/hadoop-3.1.3/wcinput
vim word.txt
ss ss
cls cls
banzhang
bobo
yangge
bash 复制代码
hadoop fs -mkdir /input	
hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input	
bash 复制代码
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

部分内容参考连接:https://blog.csdn.net/Brave_heart4pzj/article/details/138314373

相关推荐
sun0077004 小时前
ubuntu dpkg 删除安装包
运维·服务器·ubuntu
吃肉不能购6 小时前
Label-studio-ml-backend 和YOLOV8 YOLO11自动化标注,目标检测,实例分割,图像分类,关键点估计,视频跟踪
运维·yolo·自动化
学Linux的语莫6 小时前
Ansible使用简介和基础使用
linux·运维·服务器·nginx·云计算·ansible
qq_312920116 小时前
docker 部署 kvm 图形化管理工具 WebVirtMgr
运维·docker·容器
学Linux的语莫6 小时前
搭建服务器VPN,Linux客户端连接WireGuard,Windows客户端连接WireGuard
linux·运维·服务器
黑牛先生6 小时前
【Linux】进程-PCB
linux·运维·服务器
Karoku0666 小时前
【企业级分布式系统】ELK优化
运维·服务器·数据库·elk·elasticsearch
安迁岚8 小时前
【SQL Server】华中农业大学空间数据库实验报告 实验三 数据操作
运维·服务器·数据库·sql·mysql
打码人的日常分享8 小时前
商用密码应用安全性评估,密评整体方案,密评管理测评要求和指南,运维文档,软件项目安全设计相关文档合集(Word原件)
运维·安全·web安全·系统安全·规格说明书