Hadoop提交MR任务

MR作为Hadoop自带的计算框架所运行的任务,它本身通过hadoop jar提交

bash 复制代码
hadoop jar mr任务jar包路径 你要运行的类的全限定名 后面就是你需要传的参数

但是有些时候你需要显示的修改指定这个任务运行时所用的资源数,就可以通过下面的命令指令

bash 复制代码
hadoop jar your-hadoop-job.jar com.example.YourJobDriver \
    -D mapreduce.map.memory.mb=2048 \
    -D mapreduce.map.java.opts=-Xmx1638m \
    -D mapreduce.reduce.memory.mb=4096 \
    -D mapreduce.reduce.java.opts=-Xmx3276m \
    -D mapreduce.job.inputdir=/path/to/input/data \
    -D mapreduce.job.outputdir=/path/to/output/directory \
    arg1 arg2 arg3

your-hadoop-job.jar 是你的Hadoop作业的JAR文件。

com.example.YourJobDriver 是你的作业驱动程序的完全限定类名。

-D 选项用于设置Hadoop配置参数。

mapreduce.map.memory.mb=2048 设置每个Map任务的内存为2048MB。

mapreduce.map.java.opts=-Xmx1638m 这个是设置Map任务暂用JVM堆内存大小为1638MB(留一些内存给JVM进程本身)。

mapreduce.reduce.memory.mb=4096 设置每个Reduce任务的内存为4096MB。

mapreduce.reduce.java.opts=-Xmx3276m 设置Reduce任务的JVM堆内存大小为3276MB。

-D mapreduce.job.inputdir=/path/to/input/data 设置输入目录。

-D mapreduce.job.outputdir=/path/to/output/directory 设置输出目录。注意,这个目录在作业运行前应该不存在,因为Hadoop会尝试创建它。

arg1 arg2 arg3 是传递给main方法的参数。

注意,上面通过-d来指定参数的方式,只能指定作业的通用配置,而那些详细的,比如你要用多少个map?在你的MapReduce作业代码中,你可以通过调用job.setNumMapTasks(int num)来设置Map任务的个数。这个num参数就是你想要的Map任务的数量。reduce个数也是一样的通过job.setNumReduceTasks(5)修改。以及如果你想要大概的控制任务所用到的总资源,那还要配和集群的配置文件完成。所以,在控制资源上MR任务本身就比较麻烦,不像其他的框架提交yarn那样可以直接指定运行资源

相关推荐
Tigshop开源商城4 小时前
『物流设置+SEO优化』Tigshop开源商城系统 JAVA v5.8.26 版本更新!
java·开源商城系统·tigshop
Tigshop开源商城6 小时前
『订单税率+收货地址校验国家字段』功能上新|跨境运营更高效,Tigshop开源商城系统 JAVA v5.8.23 版本更新
java·开源商城系统·tigshop
REDcker6 小时前
C++变量存储与ELF段布局详解 从const全局到rodata与nm_readelf验证实践
java·c++·面试
kobesdu8 小时前
【ROS2实战笔记-19】ROS2 生命周期节点的启动顺序、状态转换陷阱与热备方案
java·前端·笔记·机器人·ros·ros2
neo_Ggx238 小时前
Maven 版本管理详解:SNAPSHOT、Release 与 Nexus 仓库的区别和影响
java·maven
matlabgoodboy8 小时前
软件开发定制小程序APP帮代做java代码代编写C语言设计python编程
java·c语言·小程序
江离w8 小时前
新版vibecoding项目初始化指令
java
tongluowan0078 小时前
Spring MVC 底层工作流程+源码分析
java·spring·mvc
WL_Aurora9 小时前
YARN资源调度器深度解析 | 架构原理、作业提交流程
大数据·hadoop·yarn
java1234_小锋9 小时前
SpringBoot为什么要禁止循环依赖?
java·数据库·spring boot