Hadoop大数据应用:Linux 部署 MapReduce 与 Yarn

目录

一、实验

1.环境

[2.Linux 部署 MapReduce](#2.Linux 部署 MapReduce)

[3.Linux 部署 Yarn](#3.Linux 部署 Yarn)

[4.Linux 调用大数据集群分析数据](#4.Linux 调用大数据集群分析数据)

二、问题

[1.hadoop 的启动和停止命令](#1.hadoop 的启动和停止命令)

[2.HDFS 使用命令](#2.HDFS 使用命令)


一、实验

1.环境

(1)主机

表1 主机

|--------|--------------------------------------------------------|--------|-------|----------------|----|
| 主机 | 架构 | 软件 | 版本 | IP | 备注 |
| hadoop | NameNode (已部署) SecondaryNameNode (已部署) ResourceManager | hadoop | 2.7.7 | 192.168.204.50 | |
| node01 | DataNode(已部署) NodeManager | hadoop | 2.7.7 | 192.168.204.51 | |
| node02 | DataNode(已部署) NodeManager | hadoop | 2.7.7 | 192.168.204.52 | |
| node03 | DataNode(已部署) NodeManager | hadoop | 2.7.7 | 192.168.204.53 | |

(2) 查看jps进程

NameNode节点查看

bash 复制代码
[root@hadoop hadoop]# jps

DataNode节点查看(node01)

DataNode节点查看(node02)

DataNode节点查看(node03)

(3) web页面访问

bash 复制代码
http://192.168.204.50:50070/
bash 复制代码
http://192.168.204.50:50090/
bash 复制代码
http://192.168.204.51:50075/

访问系统

2.Linux 部署 MapReduce

(1)备份

bash 复制代码
[root@hadoop hadoop]# cp mapred-site.xml.template mapred-site.xml

(2)查看mapreduce配置文件

bash 复制代码
https://hadoop.apache.org/docs/r2.7.7/
bash 复制代码
https://hadoop.apache.org/docs/r2.7.7/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

(3)修改配置文件

bash 复制代码
[root@hadoop hadoop]# vim mapred-site.xml

修改前:

修改后:

bash 复制代码
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
bash 复制代码
[root@hadoop hadoop]# vim yarn-site.xml

3.Linux 部署 Yarn

(1) 查看yarn配置文件

bash 复制代码
https://hadoop.apache.org/docs/r2.7.7/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

服务:

主机:

(2) 修改配置文件

bash 复制代码
[root@hadoop hadoop]# vim yarn-site.xml

修改前:

修改后:

bash 复制代码
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop</value>
    </property>
</configuration>

(3) 同步配置

bash 复制代码
[root@hadoop ~]# rsync -aXSH --delete /usr/local/hadoop/etc node01:/usr/local/hadoop/
[root@hadoop ~]# rsync -aXSH --delete /usr/local/hadoop/etc node02:/usr/local/hadoop/
[root@hadoop ~]# rsync -aXSH --delete /usr/local/hadoop/etc node03:/usr/local/hadoop/

(4)启动yarn服务

bash 复制代码
[root@hadoop ~]# cd /usr/local/hadoop/
[root@hadoop hadoop]# ./sbin/start-yarn.sh

(5)查看jps

新增ResourceManager

bash 复制代码
[root@hadoop hadoop]# jps

node01节点

node02节点

node03节点

(6)查看节点

bash 复制代码
[root@hadoop hadoop]# ./bin/yarn node -list
24/03/14 13:40:21 INFO client.RMProxy: Connecting to ResourceManager at hadoop/192.168.204.50:8032
Total Nodes:3
         Node-Id             Node-State Node-Http-Address       Number-of-Running-Containers
    node01:40551                RUNNING       node01:8042                                  0
    node02:46073                RUNNING       node02:8042                                  0
    node03:40601                RUNNING       node03:8042                                  0

(7)web页面访问

ResourceManager

bash 复制代码
http://192.168.204.50:8088/

NodeManager

bash 复制代码
http://192.168.204.51:8042/

4.Linux 调用大数据集群分析数据

(1)查看

bash 复制代码
[root@hadoop hadoop]# ./bin/hadoop fs -ls /
bash 复制代码
[root@hadoop hadoop]# ./bin/hadoop fs -ls /devops/

(2)分析

bash 复制代码
[root@hadoop hadoop]# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /devops /output

(3)查看

生成output

bash 复制代码
[root@hadoop hadoop]# ./bin/hadoop fs -ls /
bash 复制代码
[root@hadoop hadoop]# ./bin/hadoop fs -ls /output/

查看内容

bash 复制代码
[root@hadoop hadoop]# ./bin/hadoop fs -cat /output/*

the的次数最多

二、问题

1.hadoop 的启动和停止命令

(1)命令

bash 复制代码
sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager
sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager
sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode
sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
sbin/hadoop-daemons.sh start namenode 单独启动NameNode守护进程
sbin/hadoop-daemons.sh stop namenode 单独停止NameNode守护进程
sbin/hadoop-daemons.sh start datanode 单独启动DataNode守护进程
sbin/hadoop-daemons.sh stop datanode 单独停止DataNode守护进程
sbin/hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程
sbin/hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程
sbin/start-yarn.sh 启动ResourceManager、NodeManager
sbin/stop-yarn.sh 停止ResourceManager、NodeManager
sbin/yarn-daemon.sh start resourcemanager 单独启动ResourceManager
sbin/yarn-daemons.sh start nodemanager 单独启动NodeManager
sbin/yarn-daemon.sh stop resourcemanager 单独停止ResourceManager
sbin/yarn-daemons.sh stopnodemanager 单独停止NodeManager
sbin/mr-jobhistory-daemon.sh start historyserver 手动启动jobhistory
sbin/mr-jobhistory-daemon.sh stop historyserver 手动停止jobhistory

2.HDFS 使用命令

(1)命令

bash 复制代码
ls 查看文件或目录

cat 查看文件内容

put 上传

get 下载
相关推荐
三坛海会大神5559 小时前
LVS与Keepalived详解(二)LVS负载均衡实现实操
linux·负载均衡·lvs
東雪蓮☆9 小时前
深入理解 LVS-DR 模式与 Keepalived 高可用集群
linux·运维·服务器·lvs
乌萨奇也要立志学C++9 小时前
【Linux】进程概念(二):进程查看与 fork 初探
linux·运维·服务器
T062051410 小时前
工具变量-5G试点城市DID数据(2014-2025年
大数据
向往鹰的翱翔11 小时前
BKY莱德因:5大黑科技逆转时光
大数据·人工智能·科技·生活·健康医疗
獭.獭.11 小时前
Linux -- 信号【上】
linux·运维·服务器
hashiqimiya11 小时前
centos配置环境变量jdk
linux·运维·centos
hashiqimiya11 小时前
权限更改centos中系统文件无法创建文件夹,使用命令让普通用户具备操作文件夹
linux
鸿乃江边鸟11 小时前
向量化和列式存储
大数据·sql·向量化
IT毕设梦工厂12 小时前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata