【Hadoop】- MapReduce & YARN 初体验[9]

目录

提交MapReduce程序至YARN运行

1、提交wordcount示例程序

1.1、先准备words.txt文件上传到hdfs,文件内容如下:

1.2、在hdfs中创建两个文件夹,分别为/input、/output

1.3、将创建好的words.txt文件上传到hdfs中/input

1.4、提交MapReduce程序至YARN

1.5、可通过node1:8088查看

1.6、返回我们的服务器,检查输出文件夹wc存不存在并查看统计结果

2、提交圆周率示例程序

总结


提交MapReduce程序至YARN运行

在部署并成功YARN集群后,我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:

  • MapReduce程序
  • Spark程序
  • Flink程序

Spark与Flink是大数据后续学习内容,我们目前先来体验一下在YARN上执行MapReduce程序的过程。

Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用,常用的有2个MapReduce内置程序:

  • wordcount:单词计数程序(统计指定文件内各个单词出现的次数)
  • pi:求圆周率(通过蒙特卡罗算法求圆周率)

这些内置的示例MapReduce程序代码,都在:

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内

可以通过hadoop jar命令来运行它,提交MapReduce程序到YARN中。

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

1、提交wordcount示例程序

单词计数示例程序的功能很简单:

  • 给定数据输入路径(HDFS)、给定结果输出的路径(HDFS)
  • 将输出路径内的数据中的单词进行计数,将结果写到输出路径

我们可以准备一份数据文件,并上传到HDFS中。

1.1、先准备words.txt文件上传到hdfs,文件内容如下:

1.2、在hdfs中创建两个文件夹,分别为/input、/output

1.3、将创建好的words.txt文件上传到hdfs中/input

1.4、提交MapReduce程序至YARN

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

1.5、可通过node1:8088查看

YARN给MapReduce提供资源,相当于给他提供了容器,然后他在容器里面完成了数据计算

1.6、返回我们的服务器,检查输出文件夹wc存不存在并查看统计结果

2、提交圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar pi 3 1000

  • 参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序
  • 参数3,表示设置几个map任务
  • 参数1000,表示模拟求pi的样本数(越大求得PI越准确,但是速度越慢)

运行如下:

总结

1、Hadoop自带的MapReduce示例程序的代码jar包是

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar

2、使用什么命令提交MapReduce程序到YARN中执行?

hadoop jar 命令

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

3、如何查看程序运行状态

在YARN WEB页面查看

相关推荐
TTBIGDATA1 天前
【Atlas】Atlas Hook 消费 Kafka 报错:GroupAuthorizationException
hadoop·分布式·kafka·ambari·hdp·linq·ranger
零一科技1 天前
centos7安装hadoop3(上)
hadoop
Francek Chen1 天前
【大数据基础】实验1:熟悉常用的Linux操作和Hadoop操作
大数据·linux·hadoop·hdfs
零一科技1 天前
centos7安装hadoop3(下)
hadoop
B站计算机毕业设计超人1 天前
计算机毕业设计hadoop+spark+hive共享单车预测系统 共享单车数据可视化分析 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·python·深度学习·spark·毕业设计·课程设计
B站计算机毕业设计超人1 天前
计算机毕业设计Python+Spark+Hadoop+Hive微博舆情分析 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·python·spark·cnn·课程设计
Amber勇闯数分1 天前
【Hive】基于物品协同过滤 [ ItemCF ] 推荐课程-余弦相似度计算
大数据·数据仓库·hive·hadoop·矩阵
努力有什么不好1 天前
SparkSQL如何查询外部hive数据
数据仓库·hive·hadoop
yumgpkpm1 天前
华为昇腾300T A2训练、微调Qwen过程,带保姆式命令,麒麟操作系统+鲲鹏CPU
hive·hadoop·华为·flink·spark·kafka·hbase
努力有什么不好1 天前
Hadoop3.2.2伪分布式搭建
大数据·hadoop·分布式