Hadoop MapReduce 调优参数

文章目录

      • [MapReduce 调优参数详解](#MapReduce 调优参数详解)
      • [MapReduce 调优参数一键复制](#MapReduce 调优参数一键复制)

前言:

下列参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存。

MapReduce 调优参数详解

这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量,用于从 Map 任务获取数据,增加此值可以加速 Shuffle 阶段的执行。

xml 复制代码
<property>
    <name>mapreduce.reduce.shuffle.parallelcopies</name>
    <value>10</value>
</property>

默认值: 5
建议配置: 10

定义了在 Reduce 阶段输入数据缓冲区的百分比,缓冲更多的数据可以减少磁盘 IO。

xml 复制代码
<property>
    <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
    <value>0.8</value>
</property>

默认值: 0.7
建议配置: 0.8

定义了在 Reduce 阶段执行 merge 操作的阈值,决定何时将中间数据合并到较大的文件中以减少文件数目。

xml 复制代码
<property>
    <name>mapreduce.reduce.shuffle.merge.percent</name>
    <value>0.75</value>
</property>

默认值: 0.66
建议配置: 0.75

设置 Map 任务的 Java 堆内存大小。

xml 复制代码
<property>
    <name>mapreduce.map.java.opts</name>
    <value>-Xmx2048m</value>
</property>

默认值: 未指定(取决于集群的配置)。
建议配置: -Xmx2048m,将堆内存大小设置为 2G

设置 Reduce 任务的 Java 堆内存大小。

xml 复制代码
<property>
    <name>mapreduce.reduce.java.opts</name>
    <value>-Xmx2048m</value>
</property>

默认值: 未指定(取决于集群的配置)。
建议配置: -Xmx2048m,将堆内存大小设置为 2G

定义了每个 Map 任务使用的虚拟 CPU 核心数量。

xml 复制代码
<property>
    <name>mapreduce.map.cpu.vcores</name>
    <value>2</value>
</property>

默认值: 1
建议配置: 2

定义了每个 Reduce 任务使用的虚拟 CPU 核心数量。

xml 复制代码
<property>
    <name>mapreduce.reduce.cpu.vcores</name>
    <value>2</value>
</property>

默认值: 1
建议配置: 2

定义了 Map 任务最大的重试次数。

xml 复制代码
<property>
    <name>mapreduce.map.maxattempts</name>
    <value>4</value>
</property>

默认值: 4
建议配置: 4(默认值),保持默认值即可。

定义了 Reduce 任务最大的重试次数。

xml 复制代码
<property>
    <name>mapreduce.reduce.maxattempts</name>
    <value>4</value>
</property>

默认值: 4
建议配置: 4(默认值)。保持默认值即可。

定义了在 Reduce 阶段开始之前要完成的 Map 任务的比例。

xml 复制代码
<property>
    <name>mapreduce.job.reduce.slowstart.completedmaps</name>
    <value>0.2</value>
</property>

默认值: 0.05
建议配置: 0.2。由于集群只有三台机器,提高此值有助于确保在进行 Reduce 阶段之前有足够的数据可供处理。

定义了任务的最大执行时间(以毫秒为单位)。如果任务执行超过此时间,将被认为失败。

xml 复制代码
<property>
    <name>mapreduce.task.timeout</name>
    <value>600000</value>
</property>

默认值: 600000(10分钟)
建议配置: 600000(默认值)。可以根据任务的复杂性和数据量适当调整。

定义了在 Map 阶段进行排序操作时的内存缓冲区大小(以MB为单位)。

xml 复制代码
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>200</value>
</property>

默认值: 100
建议配置: 200。适当增加这个值可以提高排序的性能,但不要超过可用内存的一半。

定义了在进行 Map 阶段排序操作时,达到多少内存使用比例时会触发溢写(spill)操作将数据写入磁盘。

xml 复制代码
<property>
    <name>mapreduce.map.sort.spill.percent</name>
    <value>0.85</value>
</property>

默认值: 0.8
建议配置: 0.85

对文件进行排序时一次合并的流数,这决定了打开文件句柄的数量。

xml 复制代码
<property>
    <name>mapreduce.task.io.sort.factor</name>
    <value>20</value>
</property>

默认值: 10
建议配置: 20

定义了每个 Map 任务使用的内存量(以MB为单位)。

xml 复制代码
<property>
    <name>mapreduce.map.memory.mb</name>
    <value>2048</value>
</property>

默认值: 1024
建议配置: 2048

定义了每个 Reduce 任务使用的内存量(以MB为单位)。

xml 复制代码
<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>2048</value>
</property>

默认值: 1024
建议配置: 2048

MapReduce 调优参数一键复制

下列配置参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存,上方可以看相关参数的详细解释。

xml 复制代码
	<property>
	    <name>mapreduce.reduce.shuffle.parallelcopies</name>
	    <value>10</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
	    <value>0.8</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.shuffle.merge.percent</name>
	    <value>0.75</value>
	</property>
	
	<property>
	    <name>mapreduce.map.java.opts</name>
	    <value>-Xmx2048m</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.java.opts</name>
	    <value>-Xmx2048m</value>
	</property>
	
	<property>
	    <name>mapreduce.map.cpu.vcores</name>
	    <value>2</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.cpu.vcores</name>
	    <value>2</value>
	</property>
	
	<property>
	    <name>mapreduce.map.maxattempts</name>
	    <value>4</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.maxattempts</name>
	    <value>4</value>
	</property>
	
	<property>
	    <name>mapreduce.job.reduce.slowstart.completedmaps</name>
	    <value>0.2</value>
	</property>
	
	<property>
	    <name>mapreduce.task.timeout</name>
	    <value>600000</value>
	</property>
	
	<property>
	    <name>mapreduce.task.io.sort.mb</name>
	    <value>200</value>
	</property>
	
	<property>
	    <name>mapreduce.map.sort.spill.percent</name>
	    <value>0.85</value>
	</property>
	
	<property>
	    <name>mapreduce.task.io.sort.factor</name>
	    <value>20</value>
	</property>
	
	<property>
	    <name>mapreduce.map.memory.mb</name>
	    <value>2048</value>
	</property>
	
	<property>
	    <name>mapreduce.reduce.memory.mb</name>
	    <value>2048</value>
	</property>
相关推荐
GZ_TOGOGO11 分钟前
【2024最新】华为HCIE认证考试流程
大数据·人工智能·网络协议·网络安全·华为
狼头长啸李树身2 小时前
眼儿媚·秋雨绵绵窗暗暗
大数据·网络·服务发现·媒体
Json_181790144802 小时前
商品详情接口使用方法和对接流程如下
大数据·json
Data 3173 小时前
Hive数仓操作(十七)
大数据·数据库·数据仓库·hive·hadoop
bubble小拾7 小时前
ElasticSearch高级功能详解与读写性能调优
大数据·elasticsearch·搜索引擎
ZOHO项目管理软件7 小时前
EDM平台大比拼 用户体验与营销效果双重测评
大数据
HyperAI超神经8 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Hello.Reader10 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
数据龙傲天10 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客10 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索