【Hadoop】- MapReduce & YARN 初体验[9]

目录

提交MapReduce程序至YARN运行

1、提交wordcount示例程序

1.1、先准备words.txt文件上传到hdfs,文件内容如下:

1.2、在hdfs中创建两个文件夹,分别为/input、/output

1.3、将创建好的words.txt文件上传到hdfs中/input

1.4、提交MapReduce程序至YARN

1.5、可通过node1:8088查看

1.6、返回我们的服务器,检查输出文件夹wc存不存在并查看统计结果

2、提交圆周率示例程序

总结


提交MapReduce程序至YARN运行

在部署并成功YARN集群后,我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:

  • MapReduce程序
  • Spark程序
  • Flink程序

Spark与Flink是大数据后续学习内容,我们目前先来体验一下在YARN上执行MapReduce程序的过程。

Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用,常用的有2个MapReduce内置程序:

  • wordcount:单词计数程序(统计指定文件内各个单词出现的次数)
  • pi:求圆周率(通过蒙特卡罗算法求圆周率)

这些内置的示例MapReduce程序代码,都在:

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内

可以通过hadoop jar命令来运行它,提交MapReduce程序到YARN中。

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

1、提交wordcount示例程序

单词计数示例程序的功能很简单:

  • 给定数据输入路径(HDFS)、给定结果输出的路径(HDFS)
  • 将输出路径内的数据中的单词进行计数,将结果写到输出路径

我们可以准备一份数据文件,并上传到HDFS中。

1.1、先准备words.txt文件上传到hdfs,文件内容如下:

1.2、在hdfs中创建两个文件夹,分别为/input、/output

1.3、将创建好的words.txt文件上传到hdfs中/input

1.4、提交MapReduce程序至YARN

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

1.5、可通过node1:8088查看

YARN给MapReduce提供资源,相当于给他提供了容器,然后他在容器里面完成了数据计算

1.6、返回我们的服务器,检查输出文件夹wc存不存在并查看统计结果

2、提交圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar pi 3 1000

  • 参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序
  • 参数3,表示设置几个map任务
  • 参数1000,表示模拟求pi的样本数(越大求得PI越准确,但是速度越慢)

运行如下:

总结

1、Hadoop自带的MapReduce示例程序的代码jar包是

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar

2、使用什么命令提交MapReduce程序到YARN中执行?

hadoop jar 命令

语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]

3、如何查看程序运行状态

在YARN WEB页面查看

相关推荐
曹牧5 小时前
Java Web 开发:servlet-mapping‌
java·数据仓库·hive·hadoop
菜鸟小码6 小时前
MapReduce 编程模型详解:Mapper、Reducer、Driver 三大核心组件
大数据·javascript·mapreduce
菜鸟小码1 天前
HDFS 数据块(Block)机制深度解析:从原理到实战
大数据·hadoop·hdfs
早睡早起早日毕业1 天前
大数据管理与应用系列丛书《大数据平台架构》之第4章 Hadoop 分布式文件系统 (HDFS)
大数据·hadoop·架构
菜鸟小码1 天前
MapReduce 核心思想:分而治之,大数据处理的智慧之源
前端·javascript·mapreduce
菜鸟小码1 天前
MapReduce 核心阶段深度解析:Map 阶段与 Reduce 阶段的作用及执行流程
前端·javascript·mapreduce
早睡早起早日毕业1 天前
大数据管理与应用系列丛书《大数据平台架构》之第2章 分布式理论基础:大数据系统的架构基石
大数据·hadoop·分布式·架构
菜鸟小码1 天前
HDFS 常用命令大全:从入门到生产实战
大数据·hadoop·hdfs
菜鸟小码3 天前
Hadoop大数据时代的底座和基石
大数据·hadoop·分布式
WL_Aurora3 天前
【集群模式】第一个MapReduce程序——WordCount
大数据·mapreduce