Hadoop分布式模式配置

hadoop环境准备:

hadoop下载地址:http://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

hadoop集群的安装配置大致分为以下六个步骤:

  1. 选定一台机器作为master

  2. 在master节点上创建hadoop用户、安装ssh服务端、配置jdk环境

  3. 在master节点上安装hadoop,完成配置

  4. 在其他Slave节点上创建hadoop用户安装ssh服务端、配置jdk环境

  5. 将master节点上的/usr/local/hadoop目录复制到其他Slave节点上

  6. 在master节点上开启hadoop

2.1创建hadoop用户:

复制代码
sudo useradd -m hadoop -s /bin/bash
#设置密码
sudo passwd hadoop
#增加管理员权限
sudo adduser hadoop sudo

2.2ssh无密码登陆节点

复制代码
cd ~/.ssh
#生成公钥和私钥
ssh-keygen -t rsa
#放到authorized_key中
cat ./id_rsa.pub>>./authorized_keys
#更改本地hosts
vim /etc/hosts
#将公钥传到slavel机器
scp ~/.ssh/id_rsa.pub hadoop@Slavel:/home/hadoop
#将传过来的公钥继续追加写入到authorized_keys
cat ~/id_rsa.pub>>~/.ssh/authorized_keys

2.3配置jdk

复制代码
vim ~/.bashrc
#修改之后保存,刷新
source ~/.bashrc

在末尾添加环境变量

复制代码
export JAVA_HOME=/tools/JDK/jdk1.8.0_371
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

3、配置集群/分布式环境

复制代码
#下载完之后解压hadoop移动到/usr/local目录中
mv ./hadoop /usr/local
#给当前hadoop用户添加一个用户组,以至于有权限访问hadoop文件
chown +R hadoop /usr/local/hadoop

在配置集群需要修改/usr/local/hadoop/etc/hadoop目录下的workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml五个文件(这里仅设置正常启动所必需的设置项)

3.1修改workers文件

本机是master,在master中添加一行

复制代码
Slaver

3.2修改core-site.xml文件

复制代码
<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://Master:9000</value>
        </property>
</configuration>

3.3修改hdfs-site.xml文件

复制代码
<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>Master:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

3.4修改mapred-site.xml文件

复制代码
<configuration>

        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>Master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>Master:19888</value>
        </property>
        <property>
                <name>yarn.app.mapreduce.am.env</name>
                <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
        </property>
        <property>
                <name>mapreduce.map.env</name>
                <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
        </property>
        <property>
                <name>mapreduce.reduce.env</name>
                <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
        </property>
</configuration>

3.5修改yarn-site.xml文件

复制代码
<property>
                <name>yarn.resourcemanager.hostname</name>
                <value>Master</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

将以上文件都修改完之后需要把master节点上的hadoop文件复制到各个节点上去

首先在master上执行如下命令:

复制代码
cd /usr/local
sudo rm -r ./hadoop/tmp ./hadoop/logs/*
tar -zcf ~/hadoop.master.tar.gz ./hadoop
cd ~
scp ./hadoop.master.tar.gz Slavel:/home/hadoop

然后在slavel节点上执行如下命令:

复制代码
sudo rm -r /usr/local/hadoop
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/hadoop

slavel执行完成之后回到master上来

第一次启动hadoop集群时,须先在master节点上执行名称节点的格式化

复制代码
hdfs namenode -format

启动hadoop,须在master上进行(这里我配置了hadoop的环境变量的)

复制代码
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

hadoop配置环境变量

复制代码
vim ~/.bashrc

export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

jps命令可查看各个节点启动的进程,如正确启动,则在master节点杀死嗯有NameNode、ResourceManager、SecondaryNameNode和JobHistoryServer进程

缺少任意一进程都表示出错

执行分布式实例

复制代码
hdfs dfs -mkdir -p /user/hadoop
#其次在hdfs中创建一个input目录,并把/usr/local/hadoop/etc/hadoop目录中的配置文件作为输入文件复制到input目录中
hdfs dfs -mkdir input
hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input

运行MapReduce作业

复制代码
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

查看结果

复制代码
./bin/hdfs dfs -cat output/*

可能遇到的问题:

在master拷贝的hadoop到节点机器上因为hadoop里面配置的jdk的路径是master机器上的,所以要在/usr/local/hadoop/etc/hadoop/hadoop-env.sh

将jdk路径改成自己的

相关推荐
蓝-萧1 天前
Redis——Windows安装
java·后端
祈祷苍天赐我java之术1 天前
如何在Java中整合Redis?
java·开发语言·redis
极小狐1 天前
极狐GitLab 18.5 正式发布,更新 Maven 虚拟仓库 UI(Beta)、全新个人主页、实例级合规与安全策略管理 以及 DAST 认证脚本 等
java·gitlab·maven
王元_SmallA1 天前
【玩转全栈】----Django基本配置和介绍
java·后端
LiuYaoheng1 天前
【Android】Drawable 基础
android·java
AlianNiew1 天前
从源码到实战:用 Java 打造“限时+防重放”的文件安全预览链接
java·后端
null or notnull1 天前
java服务器空间不够时:将多个服务器的文件存放至同一个服务器上(使用映射器的办法)
java·运维·服务器·java-ee
代码栈上的思考1 天前
JVM中内存管理的策略
java·jvm
YoungP1 天前
【Effective Java 条目二】-- 当构造器参数较多时考虑使用生成器
java
森G1 天前
四、Linux设备驱动介绍
linux·arm开发·ubuntu