十七、如何将MapReduce程序提交到YARN运行

1、启动某个节点的某一个用户

cs 复制代码
hadoop@node1:~$ jps
13025 Jps
hadoop@node1:~$ yarn --daemon start resourcemanager
hadoop@node1:~$ jps
13170 ResourceManager
13253 Jps
hadoop@node1:~$ yarn --daemon start nodemanager
hadoop@node1:~$ jps
13170 ResourceManager
15062 Jps
14890 NodeManager

2、常见程序

3、 提交实例

(1)使用自带程序提交

(2) 语法

此处需要注意,对于有返回值的程序,需要指定程序参数。

(3)明确命令jar命令所在目录

cs 复制代码
/export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar

对于这些Hadoop内置的程序,他们都存储在hadoop-mapreduce-examples-3.3.6.jar中,如wordcount单词计数程序、pi求圆周率程序。

(4)执行wordcount程序(默认文件已经上传到hdfs文件系统)

~前提

首先,明确wordcount程序有返回值,所以需要指定程序参数:

[程序参数]:参数1是数据输入路径(hdfs://node1:8020/input/wordcount/)

[程序参数]:参数2是结果输出路径(hdfs://node1:8020/output/wc1),需要确保输出的文件夹不存在,否则会报错

~执行

cs 复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/some

~查看结果

执行完成后,查看some文件夹,可以看到some文件夹中存在两个子文件,第一个文件的文件名的最后一个单词,代表了本次程序运行是否成功,第二个文件存放着程序运行之后的结果。

cs 复制代码
hadoop@node1:~$ hdfs dfs -ls hdfs://node1:8020/output/some
Found 2 items
-rw-r--r--   3 hadoop supergroup          0 2023-12-16 22:37 hdfs://node1:8020/output/some/_SUCCESS
-rw-r--r--   3 hadoop supergroup        351 2023-12-16 22:37 hdfs://node1:8020/output/some/part-r-00000

程序运行之后的结果为:

cs 复制代码
hadoop@node1:~$ hdfs dfs -cat hdfs://node1:8020/output/some/part-r-00000
Because 1
Hello,my       1
I       7
I'll    1
If      1
Now     1
XX      1
XXX.    1
a       2
am      1
best    1
bird.   1
blue    1
can     2
chance  1
child.  1
come    1
day     1
do      1
dream   2
everything      1
fly     1
graduatedfrom   1
have    2
i       1
in      1
is      1
it      1
job.    2
like    1
love    1
make    1
my      1
name    1
old.I   1
one     1
since   1
sky     1
some    3
take    1
that    1
the     3
this    2
to      2
true.   1
try     1
was     1
well.   1
years   1
yjbys.  1

(5)在Hadoop提供的Web页面上查看

~点击程序名

~查看详细信息

~查看运行日志

~map 和 reduce任务历史查看

相关推荐
脱了格子衬衫42 分钟前
linux安装ansible
linux·运维·ansible
天冬忘忧44 分钟前
Spark 共享变量:广播变量与累加器解析
大数据·python·spark
小丑西瓜6661 小时前
MySQL库操作
linux·服务器·数据库·mysql
荒川之神1 小时前
RHEL/CENTOS 7 ORACLE 19C-RAC安装(纯命令版)
服务器·数据库·oracle
电子手信1 小时前
AI知识库在行业应用中的未来趋势与案例分析
大数据·人工智能·自然语言处理·数据挖掘
zmd-zk1 小时前
hive中windows子句的使用
大数据·数据仓库·hive·hadoop·windows·分布式·big data
黑龙江亿林等保2 小时前
云ECS服务器:哈尔滨三级等保的云计算解决方案
运维·服务器·云计算
小珑也要变强3 小时前
shell脚本基本概念讲解
linux·运维
爱吃喵的鲤鱼4 小时前
linux 用C语言编写自己的myshell
linux·运维·服务器·c语言·算法
矛取矛求8 小时前
Linux如何更优质调节系统性能
linux