MapReduce打包运行

三)修改代码,设置执行环境和文件路径

我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。

打开代码,找到driver类,并修改如下:

conf.set("fs.defaultFS", "hdfs://hadoop100:8020"); // 新增加一句

FileInputFormat.setInputPaths(job, new Path("/wcinput")); // 修改

FileOutputFormat.setOutputPath(job, new Path("/output1"));

确保集群中有/wcinput目录,并且下面有记事本文件中的单词。

确保集群中没有output1这个目录,因为它应该是要被动态创建出来的。

(四)上传到节点运行

使用finalshell上到任意节点,例如hadoop100上的/opt下,。

然后通过命令来执行执行WordCount程序,注意要写Driver类的全名

$ hadoop jar /opt/wc.jarcom.root.mapreduce.wordcount.WordCountDriver

(五)修改执行参数

在上面的代码中,我们的程序只能完成固定目录下的功能。现在希望它能处理不同的目录。

修改代码,让程序能指定要执行的输入目录和要保存结果的输出目录。

修改driver类的代码,更新输入和输入路径。

// 6. 设置输入和输出路径

路径为程序的第一个参数,第二个参数

FileInputFormat.setInputPaths(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

这里的args[0]和args[1]是程序运行时的两个参数。

相关推荐
Elastic 中国社区官方博客3 分钟前
日志根因分析:Elastic Observability 的异常检测与日志分类功能
大数据·人工智能·elasticsearch·搜索引擎·分类·数据挖掘·全文检索
TNTLWT34 分钟前
Qt文件:XML文件
xml·数据库·qt
zhou1851 小时前
【最新】MySQL 5.6 保姆级安装详细教程
java·数据库·python·mysql·php
wuli玉shell1 小时前
spark-shuffle 类型及其对比
大数据·分布式·spark
心仪悦悦1 小时前
sparkSQL读入csv文件写入mysql
数据库·mysql
zhixingheyi_tian1 小时前
Spark 之 SparkPlanInfo
大数据·分布式·spark
wxl7812271 小时前
基于自然语言转SQL的BI准确率如何?
数据库·bi·nl2sql
Elastic 中国社区官方博客1 小时前
将嵌入映射到 Elasticsearch 字段类型:semantic_text、dense_vector、sparse_vector
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
大力水手偷吃菠菜变成米老鼠2 小时前
数据库 1.0.1
数据库
小叶爱吃鱼2 小时前
python-数据可视化(大数据、数据分析、可视化图像、HTML页面)
大数据·python·信息可视化·数据分析