hadoop2.x linux集群部署

hadoop2.x 集群部署

接收到一个项目 需要进行hadoop的数据迁移.旧版本使用的是hadoop2.x的,所以这里记录一下hadoop2.x的集群部署. 以便于后续数据通过distcp来迁移

linux版本是centos7

下载hadoop

我这里下的是这个版本hadoop-2.10.2.tar.gz. 去清华镜像 或者阿里华为都可以

需要提前准备好jdk1.8 和rsync 和ssl

  • jdk hadoop环境的需要
  • rsync 同步集群分发的时候需要
  • ssl 免密登陆访问集群,便于分发

集群信息

我这里有12台机,其中2台要部署hive.这里一定要使用hostname来进行配置,只通过ip来配置的话,总有一些奇奇怪怪的问题.

涉及的hadoop服务集群如下

hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
------以上服务器 都是hadoop节点
 
涉及hive服务器 
hive97  主要用这个 ,这台配置了mysql
hive101

解压安装

需要提前安装好jdk 并配置好java_home

然后把hadoop的压缩包扔到服务器 tar -zxvf 解压就行.解压后,我是放置在/usr/local目录下面

配置环境变量

接下来配置一下hadoop的环境变量

/etc/profile

export HADOOP_HOME=/usr/local/hadoop-2.10.2
export PATH=$PATH:$REDIS_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

记得 source /etc/profile

配置site配置文件(/hadoop/etc/hadoop目录下)

core-site.xml

xml 复制代码
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop98:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-2.10.2/tmp</value>
    </property>
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
</configuration>

hdfs-site.xml

xml 复制代码
<configuration> 
	<property>
			<name>dfs.namenode.http-address</name>
			<value>hadoop98:50070</value>
	</property>
	<property>
			<name>dfs.namenode.secondary.http-address</name>
			<value>hadoop98:50090</value>
	</property>
	<property>
			<name>dfs.namenode.name.dir</name>
			<value>file:/opt/hadoop/dfs/name</value>
	</property>
	<property>
			<name>dfs.datanode.data.dir</name>
			<value>file:/opt/hadoop/dfs/data</value>
	</property>
	<property>
			<name>dfs.webhdfs.enabled</name>
			<value>true</value>
	</property>  
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

yarn-site.xml

xml 复制代码
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop98</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>20480</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
    </property>
</configuration>

mapred-site.xml

xml 复制代码
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop98:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop98:19888</value>
    </property>
</configuration>

hadoop-env.sh要追加java_home!

export HADOOP_IDENT_STRING=$USER
export JAVA_HOME=/usr/local/jdk1.8.0_281

配置节点slaves

[root@hadoop98 hadoop]# cat slaves
hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
[root@hadoop98 hadoop]# 

配置免密ssh访问

先到 ~/.ssh目录下 生产密钥对
ssh-keygen -t rsa

然后路径会生成公钥(id_rsa.pub)和私钥(id_rsa)

然后通过ssh-copy-id 服务器名(ip),将公钥分发给其他集群中的服务器.然后就可以ssh 免密登录了

没有ssh-copy-id脚本的情况下,免密登录

通过指令

cat ~/.ssh/id_*.pub|ssh root@待访问的主机IP 'cat>>.ssh/authorized_keys' 

解释

  1. 当前主机位 ,需要免密登录 待访问的主机.则执行上面那一条命令
  2. 执行后会提示输入一此,待访问的主机的密码,随后成功后即可

但是,在执行上述之前,要确保待访问的主机的~目录下有.ssh文件夹,如果报错要提前执行以下

ssh 待访问的主机 'mkdir .ssh'

编写xsync脚本

xsync这里就是一个名称, 你想改成什么都可以.

他的原理就是通过 使用 rsync同步增量覆盖分发而已
这里测试 hadoop98-100 3台机器,要全部分发的话自行修改 for的循环即可

  • 这里除了 for 的循环设备,其他都不用改,直接抄就行.你有时间的话 可以自行理解一下

  • 为了方便使用xsync,建议在/usr/bin目录下新建这个文件,并授权chmod 777.这样无论到哪个位置 都可以直接使用了

  • 使用方法: xsync 需要同步的目录或者文件即可

    #!/bin/bash

    #1. 判断参数个数
    if [ $# -lt 1 ]
    then
    echo Not Enough Arguement!
    exit;
    fi

    #2. 遍历集群所有机器
    for host in hadoop98 hadoop99 hadoop100
    do
    echo ==================== $host ====================
    #3. 遍历所有目录,挨个发送

      for file in $@
      do
          #4. 判断文件是否存在
          if [ -e $file ]
              then
                  #5. 获取父目录
                  pdir=$(cd -P $(dirname $file); pwd)
    
                  #6. 获取当前文件的名称
                  fname=$(basename $file)
                  ssh $host "mkdir -p $pdir"
                  rsync -av $pdir/$fname $host:$pdir
              else
                  echo $file does not exists!
          fi
      done
    

    done

分发到其他集群

同步hadoop   xsync /usr/local/hadoop
同步环境变量  xsync /etc/profile
这里在集群机器上,还要执行source /etc/profile .这里直接通过ssh 服务器来 远程执行也是可以的

----以下 看自己的需求------------
当前,也需要同步jdk  xsync /usr/local/jdk

启动集群

这里意识hadoop98作为主服务器,在这上面执行 start-all.sh即可(这里没有这个命令的话,检查一下环境变量是否配置)

或者执行 start-dfs.sh

查看集群启动情况

hadoop dfsadmin -report
相关推荐
CS数模4 分钟前
2024 “华为杯” 中国研究生数学建模竞赛(D题)深度剖析|大数据驱动的地理综合问题|数学建模完整代码+建模过程全解全析
大数据·数学建模·华为
陈吉俊17 分钟前
实时流处理框架(如Flink、Spark Streaming)
大数据
@听风吟18 分钟前
力扣之182.查找重复的电子邮箱
大数据·javascript·数据库·sql·leetcode
Elastic 中国社区官方博客34 分钟前
Elasticsearch:检索增强生成背后的重要思想
大数据·人工智能·elasticsearch·搜索引擎·全文检索
嵌入式冰箱38 分钟前
2024年中国研究生数学建模竞赛D题“大数据驱动的地理综合问题”全析全解
大数据·数学建模
是店小二呀1 小时前
数据飞轮崛起:数据中台真的过时了吗?
大数据
guitarCC2 小时前
spark Rdd的创建方式
大数据·分布式·spark
B站计算机毕业设计超人2 小时前
计算机毕业设计hadoop+spark知网文献论文推荐系统 知识图谱 知网爬虫 知网数据分析 知网大数据 知网可视化 预测系统 大数据毕业设计 机器学习
大数据·hadoop·爬虫·机器学习·spark·知识图谱·推荐算法
Yz98762 小时前
Hadoop里面MapReduce的序列化与Java序列化比较
java·大数据·jvm·hadoop·分布式·mapreduce·big data
Fan3 小时前
Elasticsearch 下载安装及使用总结
大数据·elasticsearch·jenkins