Hadoop MapReduce 调优参数

文章目录

      • [MapReduce 调优参数详解](#MapReduce 调优参数详解)
      • [MapReduce 调优参数一键复制](#MapReduce 调优参数一键复制)

前言:

下列参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存。

MapReduce 调优参数详解

这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量,用于从 Map 任务获取数据,增加此值可以加速 Shuffle 阶段的执行。

xml 复制代码
<property>
    <name>mapreduce.reduce.shuffle.parallelcopies</name>
    <value>10</value>
</property>

默认值: 5
建议配置: 10

定义了在 Reduce 阶段输入数据缓冲区的百分比,缓冲更多的数据可以减少磁盘 IO。

xml 复制代码
<property>
    <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
    <value>0.8</value>
</property>

默认值: 0.7
建议配置: 0.8

定义了在 Reduce 阶段执行 merge 操作的阈值,决定何时将中间数据合并到较大的文件中以减少文件数目。

xml 复制代码
<property>
    <name>mapreduce.reduce.shuffle.merge.percent</name>
    <value>0.75</value>
</property>

默认值: 0.66
建议配置: 0.75

设置 Map 任务的 Java 堆内存大小。

xml 复制代码
<property>
    <name>mapreduce.map.java.opts</name>
    <value>-Xmx2048m</value>
</property>

默认值: 未指定(取决于集群的配置)。
建议配置: -Xmx2048m,将堆内存大小设置为 2G

设置 Reduce 任务的 Java 堆内存大小。

xml 复制代码
<property>
    <name>mapreduce.reduce.java.opts</name>
    <value>-Xmx2048m</value>
</property>

默认值: 未指定(取决于集群的配置)。
建议配置: -Xmx2048m,将堆内存大小设置为 2G

定义了每个 Map 任务使用的虚拟 CPU 核心数量。

xml 复制代码
<property>
    <name>mapreduce.map.cpu.vcores</name>
    <value>2</value>
</property>

默认值: 1
建议配置: 2

定义了每个 Reduce 任务使用的虚拟 CPU 核心数量。

xml 复制代码
<property>
    <name>mapreduce.reduce.cpu.vcores</name>
    <value>2</value>
</property>

默认值: 1
建议配置: 2

定义了 Map 任务最大的重试次数。

xml 复制代码
<property>
    <name>mapreduce.map.maxattempts</name>
    <value>4</value>
</property>

默认值: 4
建议配置: 4(默认值),保持默认值即可。

定义了 Reduce 任务最大的重试次数。

xml 复制代码
<property>
    <name>mapreduce.reduce.maxattempts</name>
    <value>4</value>
</property>

默认值: 4
建议配置: 4(默认值)。保持默认值即可。

定义了在 Reduce 阶段开始之前要完成的 Map 任务的比例。

xml 复制代码
<property>
    <name>mapreduce.job.reduce.slowstart.completedmaps</name>
    <value>0.2</value>
</property>

默认值: 0.05
建议配置: 0.2。由于集群只有三台机器,提高此值有助于确保在进行 Reduce 阶段之前有足够的数据可供处理。

定义了任务的最大执行时间(以毫秒为单位)。如果任务执行超过此时间,将被认为失败。

xml 复制代码
<property>
    <name>mapreduce.task.timeout</name>
    <value>600000</value>
</property>

默认值: 600000(10分钟)
建议配置: 600000(默认值)。可以根据任务的复杂性和数据量适当调整。

定义了在 Map 阶段进行排序操作时的内存缓冲区大小(以MB为单位)。

xml 复制代码
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>200</value>
</property>

默认值: 100
建议配置: 200。适当增加这个值可以提高排序的性能,但不要超过可用内存的一半。

定义了在进行 Map 阶段排序操作时,达到多少内存使用比例时会触发溢写(spill)操作将数据写入磁盘。

xml 复制代码
<property>
    <name>mapreduce.map.sort.spill.percent</name>
    <value>0.85</value>
</property>

默认值: 0.8
建议配置: 0.85

对文件进行排序时一次合并的流数,这决定了打开文件句柄的数量。

xml 复制代码
<property>
    <name>mapreduce.task.io.sort.factor</name>
    <value>20</value>
</property>

默认值: 10
建议配置: 20

定义了每个 Map 任务使用的内存量(以MB为单位)。

xml 复制代码
<property>
    <name>mapreduce.map.memory.mb</name>
    <value>2048</value>
</property>

默认值: 1024
建议配置: 2048

定义了每个 Reduce 任务使用的内存量(以MB为单位)。

xml 复制代码
<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>2048</value>
</property>

默认值: 1024
建议配置: 2048

MapReduce 调优参数一键复制

下列配置参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存,上方可以看相关参数的详细解释。

xml 复制代码
	<property>
	    <name>mapreduce.reduce.shuffle.parallelcopies</name>
	    <value>10</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
	    <value>0.8</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.shuffle.merge.percent</name>
	    <value>0.75</value>
	</property>
	
	<property>
	    <name>mapreduce.map.java.opts</name>
	    <value>-Xmx2048m</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.java.opts</name>
	    <value>-Xmx2048m</value>
	</property>
	
	<property>
	    <name>mapreduce.map.cpu.vcores</name>
	    <value>2</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.cpu.vcores</name>
	    <value>2</value>
	</property>
	
	<property>
	    <name>mapreduce.map.maxattempts</name>
	    <value>4</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.maxattempts</name>
	    <value>4</value>
	</property>
	
	<property>
	    <name>mapreduce.job.reduce.slowstart.completedmaps</name>
	    <value>0.2</value>
	</property>
	
	<property>
	    <name>mapreduce.task.timeout</name>
	    <value>600000</value>
	</property>
	
	<property>
	    <name>mapreduce.task.io.sort.mb</name>
	    <value>200</value>
	</property>
	
	<property>
	    <name>mapreduce.map.sort.spill.percent</name>
	    <value>0.85</value>
	</property>
	
	<property>
	    <name>mapreduce.task.io.sort.factor</name>
	    <value>20</value>
	</property>
	
	<property>
	    <name>mapreduce.map.memory.mb</name>
	    <value>2048</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.memory.mb</name>
	    <value>2048</value>
	</property>
相关推荐
武子康21 小时前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人5 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长5 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人5 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计