Hadoop提交MR任务

MR作为Hadoop自带的计算框架所运行的任务,它本身通过hadoop jar提交

bash 复制代码
hadoop jar mr任务jar包路径 你要运行的类的全限定名 后面就是你需要传的参数

但是有些时候你需要显示的修改指定这个任务运行时所用的资源数,就可以通过下面的命令指令

bash 复制代码
hadoop jar your-hadoop-job.jar com.example.YourJobDriver \
    -D mapreduce.map.memory.mb=2048 \
    -D mapreduce.map.java.opts=-Xmx1638m \
    -D mapreduce.reduce.memory.mb=4096 \
    -D mapreduce.reduce.java.opts=-Xmx3276m \
    -D mapreduce.job.inputdir=/path/to/input/data \
    -D mapreduce.job.outputdir=/path/to/output/directory \
    arg1 arg2 arg3

your-hadoop-job.jar 是你的Hadoop作业的JAR文件。

com.example.YourJobDriver 是你的作业驱动程序的完全限定类名。

-D 选项用于设置Hadoop配置参数。

mapreduce.map.memory.mb=2048 设置每个Map任务的内存为2048MB。

mapreduce.map.java.opts=-Xmx1638m 这个是设置Map任务暂用JVM堆内存大小为1638MB(留一些内存给JVM进程本身)。

mapreduce.reduce.memory.mb=4096 设置每个Reduce任务的内存为4096MB。

mapreduce.reduce.java.opts=-Xmx3276m 设置Reduce任务的JVM堆内存大小为3276MB。

-D mapreduce.job.inputdir=/path/to/input/data 设置输入目录。

-D mapreduce.job.outputdir=/path/to/output/directory 设置输出目录。注意,这个目录在作业运行前应该不存在,因为Hadoop会尝试创建它。

arg1 arg2 arg3 是传递给main方法的参数。

注意,上面通过-d来指定参数的方式,只能指定作业的通用配置,而那些详细的,比如你要用多少个map?在你的MapReduce作业代码中,你可以通过调用job.setNumMapTasks(int num)来设置Map任务的个数。这个num参数就是你想要的Map任务的数量。reduce个数也是一样的通过job.setNumReduceTasks(5)修改。以及如果你想要大概的控制任务所用到的总资源,那还要配和集群的配置文件完成。所以,在控制资源上MR任务本身就比较麻烦,不像其他的框架提交yarn那样可以直接指定运行资源

相关推荐
Mos_x4 分钟前
计算机组成原理核心知识点梳理
java·后端
墨寒博客栈8 分钟前
Linux基础常用命令
java·linux·运维·服务器·前端
回忆是昨天里的海12 分钟前
k8s-部署springboot容器化应用
java·容器·kubernetes
INFINI Labs24 分钟前
使用 Docker Compose 轻松实现 INFINI Console 离线部署与持久化管理
java·docker·eureka·devops·docker compose·console·easyserach
Cosolar25 分钟前
国产麒麟系统 aarch64 架构 PostgreSQL 15 源码编译安装完整教程
java·后端
GalaxyPokemon32 分钟前
PlayerFeedback 插件开发日志
java·服务器·前端
天天摸鱼的java工程师1 小时前
别再写那些重复代码了!8年Java老兵教你用 Hutool 提升开发效率
java·后端
喝杯绿茶1 小时前
springboot中的事务
java·spring boot·后端
麦兜*1 小时前
多阶段构建:打造最小化的 Spring Boot Docker 镜像
java·spring boot·后端·spring cloud·docker
oak隔壁找我1 小时前
Spring Boot Starter 入门教程
java·后端