【Hadoop】- MapReduce & YARN 初体验[9]

目录

提交MapReduce程序至YARN运行

1、提交wordcount示例程序

1.1、先准备words.txt文件上传到hdfs,文件内容如下:

1.2、在hdfs中创建两个文件夹,分别为/input、/output

1.3、将创建好的words.txt文件上传到hdfs中/input

1.4、提交MapReduce程序至YARN

1.5、可通过node1:8088查看

1.6、返回我们的服务器,检查输出文件夹wc存不存在并查看统计结果

2、提交圆周率示例程序

总结


提交MapReduce程序至YARN运行

在部署并成功YARN集群后,我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:

  • MapReduce程序
  • Spark程序
  • Flink程序

Spark与Flink是大数据后续学习内容,我们目前先来体验一下在YARN上执行MapReduce程序的过程。

Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用,常用的有2个MapReduce内置程序:

  • wordcount:单词计数程序(统计指定文件内各个单词出现的次数)
  • pi:求圆周率(通过蒙特卡罗算法求圆周率)

这些内置的示例MapReduce程序代码,都在:

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内

可以通过hadoop jar命令来运行它,提交MapReduce程序到YARN中。

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

1、提交wordcount示例程序

单词计数示例程序的功能很简单:

  • 给定数据输入路径(HDFS)、给定结果输出的路径(HDFS)
  • 将输出路径内的数据中的单词进行计数,将结果写到输出路径

我们可以准备一份数据文件,并上传到HDFS中。

1.1、先准备words.txt文件上传到hdfs,文件内容如下:

1.2、在hdfs中创建两个文件夹,分别为/input、/output

1.3、将创建好的words.txt文件上传到hdfs中/input

1.4、提交MapReduce程序至YARN

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

1.5、可通过node1:8088查看

YARN给MapReduce提供资源,相当于给他提供了容器,然后他在容器里面完成了数据计算

1.6、返回我们的服务器,检查输出文件夹wc存不存在并查看统计结果

2、提交圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar pi 3 1000

  • 参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序
  • 参数3,表示设置几个map任务
  • 参数1000,表示模拟求pi的样本数(越大求得PI越准确,但是速度越慢)

运行如下:

总结

1、Hadoop自带的MapReduce示例程序的代码jar包是

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar

2、使用什么命令提交MapReduce程序到YARN中执行?

hadoop jar 命令

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

3、如何查看程序运行状态

在YARN WEB页面查看

相关推荐
小马爱打代码7 分钟前
SpringBoot原生实现分布式MapReduce计算
spring boot·分布式·mapreduce
元6332 小时前
spark和hadoop之间的对比和联系
大数据·hadoop·spark
哥不是小萝莉3 小时前
Hadoop和Spark大数据挖掘与实战
hadoop·ai·spark
lix的小鱼5 小时前
spark和Hadoop之间的对比和联系
大数据·hadoop·spark
TTBIGDATA8 小时前
如何将 Apache Hudi 接入 Ambari?完整部署与验证指南
大数据·hadoop·ambari·hudi·bigtop·湖仓·自定义组件集成
IT成长日记10 小时前
【Hive入门】Hive数据导出完全指南:从HDFS到本地文件系统的专业实践
hive·hadoop·hdfs·数据导出
大数据魔法师12 小时前
Hadoop生态圈框架部署 - Windows上部署Hadoop
大数据·hadoop·windows
渣渣盟12 小时前
大数据开发环境的安装,配置(Hadoop)
大数据·hadoop·分布式
IT成长日记1 天前
【Hive入门】Hive查询语言(DQL)完全指南:从基础查询到高级分析
数据仓库·hive·hadoop·dql操作
橘猫云计算机设计1 天前
springboot基于hadoop的酷狗音乐爬虫大数据分析可视化系统(源码+lw+部署文档+讲解),源码可白嫖!
数据库·hadoop·spring boot·爬虫·python·数据分析·毕业设计