Hadoop技术栈（一）hadoop搭建与HDFS常用命令

概念

hadoop是一个大数据的分布式存储，调度，计算框架。也可以说是一个生态圈，包含很多技术：Hive、Hbase、Flume、Kafka...

Hadoop的优点

Hadoop具有存储和处理数据能力的高可靠性。
Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以
千计的节点中，具有高扩展性。
Hadoop能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具
有高效性。
Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配，具有高容错性。

Hadoop的缺点

Hadoop不适用于低延迟数据访问。
Hadoop不能高效存储大量小文件。
Hadoop不支持多用户写入并任意修改文件。

集群搭建

下载：https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/

集群规划

|------|-------------------|-------------|-----------------------------|
| 框架 | linux121 | linux122 | linux123 |
| HDFS | NameNode,DataNode | DataNode | SecondaryNameNode,DataNode |
| YARN | NodeManager | NodeManager | NodeManager,ResourceManager |

解压到安装目录：tar -zxvf hadoop-2.9.2.tar.gz -C /opt/lxq/servers

编辑环境变量：vim /etc/profile

HADOOP_HOME

export HADOOP_HOME = /opt/lxq/servers/hadoop-2.9.2
export PATH = $PATH :$ HADOOP_HOME /bin
export PATH = $PATH :$ HADOOP_HOME /sbin

使环境变量生效：source /etc/profile

验证hadoop：hadoop version

集群配置

vim hadoop-env.sh
export JAVA_HOME = /opt/lxq/servers/jdk1.8.0_231
vim core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs : //linux121 : 9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/lxq/servers/hadoop-2.9.2/data/tmp</value>
</property>
vim hdfs-site.xml

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>linux123 : 50090</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>
vim slaves 这里要注意不能有空格，不能有空行
linux121
linux122
linux123
vim mapred-env.sh
export JAVA_HOME = /opt/lxq/servers/jdk1.8.0_231
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<property>
<name>mapreduce.jobhistory.address</name>
<value>linux121 : 10020</value>
</property>

<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>linux121 : 19888</value>
</property>

<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.type</name>
<value>RECORD</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
vim yarn-site.xml

<property>
<name>yarn.resourcemanager.hostname</name>
<value>linux123</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
<property>
<name>yarn.log.server.url</name>
<value>http://linux121:19888/jobhistory/logs\</value>
</property>

<property>
<name> yarn.resourcemanager.scheduler.class </name>
<value> org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler </value>
<description> In case you do not want to use the default scheduler </description>
</property>
在 Hadoop 安装目录 /etc/hadoop创建fair-scheduler.xm文件

XML 复制代码

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<allocations>
<defaultQueueSchedulingPolicy>fair</defaultQueueSchedulingPolicy>
<queue name="root" >
<queue name="default">
<aclAdministerApps>*</aclAdministerApps>
<aclSubmitApps>*</aclSubmitApps>
<maxResources>9216 mb,4 vcores</maxResources>
<maxRunningApps>100</maxRunningApps>
<minResources>1024 mb,1vcores</minResources>
<minSharePreemptionTimeout>1000</minSharePreemptionTimeout>
<schedulingPolicy>fair</schedulingPolicy>
<weight>7</weight>
</queue>
<queue name="queue1">
<aclAdministerApps>*</aclAdministerApps>
<aclSubmitApps>*</aclSubmitApps>
<maxResources>4096 mb,4vcores</maxResources>
<maxRunningApps>5</maxRunningApps>
<minResources>1024 mb, 1vcores</minResources>
<minSharePreemptionTimeout>1000</minSharePreemptionTimeout>
<schedulingPolicy>fair</schedulingPolicy>
<weight>3</weight>
</queue>
</queue>
<queuePlacementPolicy>
<rule create="false" name="specified"/>
<rule create="true" name="default"/>
</queuePlacementPolicy>
</allocations>

赋予权限：chown -R root:root /opt/lxq/servers/hadoop-2.9.2

安装分发工具：yum install -y rsync

用法：rsync -rvl /opt/lxq/software/ root@linux122:/opt/lxq/software

编写分发脚本 vim /usr/local/bin/rsync-script

bash 复制代码

#!/bin/bash
#1 获取命令输入参数的个数，如果个数为0，直接退出命令
paramnum=$#
if((paramnum==0)); then
echo no params;
exit;
fi
#2 根据传入参数获取文件名称
p1=$1
file_name=`basename $p1`
echo fname=$file_name
#3 获取输入参数的绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取用户名称
user=`whoami`
#5 循环执行rsync
for((host=121; host<124; host++)); do
echo ------------------- linux$host --------------
rsync -rvl $pdir/$file_name $user@linux$host:$pdir
done

赋予脚本权限：chmod 777 /usr/local/bin/rsync-script

拓展一些

chmod命令

用来变更文件或目录的权限。在UNIX系统家族里，文件或目录权限的控制分别以读取、写入、执行3种一般权限来区分，另有3种特殊权限可供运用。用户可以使用chmod指令去变更文件与目录的权限，设置方式采用文字或数字代号皆可。符号连接的权限无法变更，如果用户对符号连接修改权限，其改变会作用在被连接的原始文件。

权限范围的表示法如下：

u User，即文件或目录的拥有者；

g Group，即文件或目录的所属群组；

o Other，除了文件或目录拥有者或所属群组之外，其他用户皆属于这个范围；

a All，即全部的用户，包含拥有者，所属群组以及其他用户；

r 读取权限，数字代号为"4"; w 写入权限，数字代号为"2"；

x 执行或切换权限，数字代号为"1"；

不具任何权限，数字代号为"0"；

s 特殊功能说明：变更文件或目录的权限。

语法 chmod(选项)(参数)

选项

-c或------changes：效果类似"-v"参数，但仅回报更改的部分；

-f或--quiet或------silent：不显示错误信息；

-R或------recursive：递归处理，将指令目录下的所有文件及子目录一并处理；

-v或------verbose：显示指令执行过程；

--reference=<参考文件或目录>：把指定文件或目录的所属群组全部设成和参考文件或目录的所属群组相同；

<权限范围>+<权限设置>：开启权限范围的文件或目录的该选项权限设置；

<权限范围>-<权限设置>：关闭权限范围的文件或目录的该选项权限设置；

<权限范围>=<权限设置>：指定权限范围的文件或目录的该选项权限设置；

参数

权限模式：指定文件的权限模式；

文件：要改变权限的文件。

例：

rwx　rw-　r-- r=读取属性　　//值＝4

w=写入属性　　//值＝2

x=执行属性　　//值＝1

chmod u+x,g+w f01　　//为文件f01设置自己可以执行，组员可以写入的权限

chmod u=rwx,g=rw,o=r f01

chmod 764 f01

chmod a+x f01　　//对文件f01的u,g,o都设置可执行属性文件的属主和属组属性设置

chown user:market f01　　//把文件f01给uesr，添加到market组

ll -d f1 查看目录f1的属性

chown命令

改变某个文件或目录的所有者和所属的组，该命令可以向某个用户授权，使该用户变成指定文件的所有者或者改变文件所属的组。用户可以是用户或者是用户D，用户组可以是组名或组id。文件名可以使由空格分开的文件列表，在文件名中可以包含通配符。只有文件主和超级用户才可以便用该命令。

语法 chown(选项)(参数)

选项

-c或------changes：效果类似"-v"参数，但仅回报更改的部分；

-f或--quite或------silent：不显示错误信息；

-h或--no-dereference：只对符号连接的文件作修改，而不更改其他任何相关文件；

-R或------recursive：递归处理，将指定目录下的所有文件及子目录一并处理；

-v或------version：显示指令执行过程；

--dereference：效果和"-h"参数相同；

--help：在线帮助；

--reference=<参考文件或目录>：把指定文件或目录的拥有者与所属群组全部设成和参考文件或目录的拥有者与所属群组相同；

--version：显示版本信息。

参数

用户：组：指定所有者和所属工作组。当省略"：组"，仅改变文件所有者；

文件：指定要改变所有者和工作组的文件列表。支持多个文件和目标，支持shell通配符。

实例将目录/usr/meng及其下面的所有文件、子目录的文件主改成 liu：

chown -R liu /usr/meng

分发hadoop到集群其它节点：rsync-script /opt/lxq/servers/hadoop-2.9.2

第一次启动格式化（不是第一次不用这句命令）：hadoop namenode -format

群起yarn：start-yarn.sh [stop-yarn.sh]

群起hdfs：start-dfs.sh [stop-dfs.sh]

历史服务器起关命令

$HODOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

$HODOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver

HDFS WEB界面：http://linux121:50070/dfshealth.html#tab-overview

历史服务器web页面：http://linux121:19888/jobhistory

查看启动的服务命令：jps

HDFS命令