【数仓】Hadoop集群配置常用参数说明

Hadoop集群中,需要配置的文件主要包括四个

  1. 配置核心Hadoop参数

    • 编辑core-site.xml文件,设置Hadoop集群的基本参数,如文件系统、Hadoop临时目录等。
  2. 配置HDFS参数

    • 编辑hdfs-site.xml文件,设置HDFS的相关参数,如数据块大小、副本数等。
  3. 配置MapReduce参数(如果使用):

    • 编辑mapred-site.xml文件,设置MapReduce的相关参数。
  4. 配置YARN参数(如果使用):

    • 编辑yarn-site.xml文件,设置YARN的相关参数。

核心Hadoop参数 core-site.xml

参考官网

Hadoop的core-site.xml文件包含了许多重要的配置参数,这些参数用于定义Hadoop集群的全局设置。以下是一些常见的core-site.xml配置参数:

配置项 默认值 说明
fs.defaultFS Hadoop集群的NameNode的URI。这是HDFS的入口点。
io.file.buffer.size 4096 SequenceFiles在读写过程中可以使用的缓存大小(以字节为单位)。
hadoop.tmp.dir /tmp/hadoop-${user.name} Hadoop的临时目录,用于存储临时文件和目录。
fs.trash.interval 0 垃圾箱中文件的保留时间(以分钟为单位)。设置为大于0的值将启用垃圾箱功能。
hadoop.proxyuser.${username}.hosts 允许代理用户从哪些主机连接到Hadoop集群。
hadoop.proxyuser.${username}.groups 允许代理用户属于哪些用户组连接到Hadoop集群。
fs.trash.checkpoint.interval 0 检查垃圾箱并删除过期文件的间隔时间(以分钟为单位)。
fs.automatic.close true 是否在读取文件后自动关闭文件系统。
fs.dummy.impl org.apache.hadoop.fs.DummyFileSystem 一个假的文件系统实现,用于测试。

请注意,上述表格中的默认值可能会因Hadoop版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的Hadoop集群的需求和配置。

在实际配置中,您应该根据您的Hadoop集群的具体要求和网络环境来设置这些参数。一些关键参数(如fs.defaultFS)在集群设置中是必需的,而其他参数则可以根据需要进行调整。在修改core-site.xml文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

HDFS参数 hdfs-site.xml

参考官网

hdfs-site.xml 是 Hadoop 分布式文件系统(HDFS)的配置文件,它包含了许多参数,用于定义 HDFS 的行为和特性。以下是一些常见的 hdfs-site.xml 配置参数:

配置项 默认值 说明
dfs.namenode.name.dir file://${hadoop.tmp.dir}/dfs/name NameNode 存储其持久化元数据的本地文件系统路径。
dfs.datanode.data.dir file://${hadoop.tmp.dir}/dfs/data DataNode 存储其块的本地文件系统路径。
dfs.replication 3 数据的默认副本数。
dfs.permissions.enabled true 是否启用 HDFS 权限检查。
dfs.block.size 134217728 (128 MB) HDFS 块的大小。
dfs.namenode.handler.count 10 NameNode 服务器可以同时处理的客户端请求数。
dfs.datanode.handler.count 10 DataNode 服务器可以同时处理的客户端请求数。
dfs.client.read.shortcircuit false 允许 DFS 客户端绕过 DataNode 直接读取本地文件。
dfs.client.read.shortcircuit.skip.checksum false 在短路读取时跳过校验和检查。
dfs.https.address 0.0.0.0:50470 NameNode HTTPS 服务的地址和端口。
dfs.http.address 0.0.0.0:50070 NameNode HTTP 服务的地址和端口。
dfs.datanode.http.address 0.0.0.0:50075 DataNode HTTP 服务的地址和端口。
dfs.datanode.ipc.address 0.0.0.0:50020 DataNode IPC 服务的地址和端口。
dfs.namenode.http-address 0.0.0.0:50070 NameNode HTTP 服务的地址和端口(用于 Web UI)。
dfs.namenode.secondary.http-address 0.0.0.0:50090 Secondary NameNode HTTP 服务的地址和端口。

请注意,这些默认值可能会因 Hadoop 的版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的 HDFS 集群的需求和配置。

在实际配置中,您应该根据您的 HDFS 集群的具体要求和网络环境来设置这些参数。一些关键参数(如 dfs.namenode.name.dirdfs.datanode.data.dir)在集群设置中是必需的,而其他参数则可以根据需要进行调整。在修改 hdfs-site.xml 文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

此外,请注意 hdfs-site.xml 文件通常还包含一些高级参数,用于调优 HDFS 的性能和可靠性,例如设置 NameNode 和 DataNode 的堆大小、调整各种超时设置等。这些参数的具体设置应该基于您的集群规模和工作负载进行调整。

MapReduce参数 mapred-site.xml

参考官网

mapred-site.xml 是 Hadoop MapReduce 的配置文件,它包含了许多参数,用于定义 MapReduce 作业的行为和特性。以下是一些常见的 mapred-site.xml 配置参:

配置项 默认值 说明
mapreduce.framework.name local 执行框架设置为本地模式(单机模式),在集群上应设置为 yarn
mapreduce.jobhistory.address 0.0.0.0:10020 MapReduce JobHistory Server 的地址和端口。
mapreduce.jobhistory.webapp.address 0.0.0.0:19888 MapReduce JobHistory Server 的 Web UI 地址和端口。
mapreduce.jobtracker.address local MapReduce JobTracker 的地址和端口(旧版 API,YARN 中不再使用)。
mapreduce.tasktracker.address 0.0.0.0:50060 MapReduce TaskTracker 的地址和端口(旧版 API,YARN 中不再使用)。
mapreduce.map.output.compress false 是否压缩 Map 任务的输出。
mapreduce.map.output.compress.codec org.apache.hadoop.io.compress.DefaultCodec Map 任务输出压缩使用的编解码器。
mapreduce.task.io.sort.mb 100 排序时使用的内存缓冲区大小(以 MB 为单位)。
mapreduce.task.io.sort.factor 10 合并小文件时一次合并的流的数量。
mapreduce.reduce.shuffle.parallelcopies 5 从 Map 到 Reduce 拷贝数据的并行度。
mapreduce.reduce.shuffle.fetch.retry.enabled true 是否启用 shuffle 阶段获取数据的重试机制。
mapreduce.reduce.shuffle.retry-delay.ms 1000 shuffle 阶段重试之间的延迟时间(以毫秒为单位)。
mapreduce.reduce.shuffle.input.buffer.percent 0.7 shuffle 阶段用于存储数据的内存比例。
mapreduce.job.reduces 1 每个作业的默认 Reduce 任务数。
mapreduce.job.maps 无默认值 每个作业的 Map 任务数(通常由 AM 根据数据自动计算)。
mapreduce.map.speculative true 是否启用 Map 任务的推测执行。
mapreduce.reduce.speculative true 是否启用 Reduce 任务的推测执行。

请注意,这些默认值可能会因 Hadoop 的版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的 MapReduce 作业的需求和配置。

在实际配置中,您应该根据您的 MapReduce 作业的具体要求和网络环境来设置这些参数。一些关键参数(如 mapreduce.framework.name)在集群设置中是必需的,以指定执行框架,而其他参数则可以根据需要进行调整。在修改 mapred-site.xml 文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

另外,值得注意的是,随着 Hadoop 的发展,MapReduce 已经被 YARN 和其他框架(如 Spark、Flink)所取代,因此在新版本的 Hadoop 中,mapred-site.xml 文件可能不再存在,或者其重要性已经降低。在使用新版本的 Hadoop 时,请确保查看相关文档以了解最新的配置方法和最佳实践。

YARN参数 yarn-site.xml

参考官网

yarn-site.xml 是 Apache Hadoop YARN 的配置文件,它包含了许多参数,用于定义 YARN 集群的行为和特性。以下是一些常见的 yarn-site.xml 配置参数:

配置项 默认值 说明
yarn.resourcemanager.hostname ResourceManager 的主机名。
yarn.resourcemanager.scheduler.address ${yarn.resourcemanager.hostname}:8030 ResourceManager 调度器服务的地址和端口。
yarn.resourcemanager.resource-tracker.address ${yarn.resourcemanager.hostname}:8031 ResourceManager 资源追踪服务的地址和端口。
yarn.resourcemanager.address ${yarn.resourcemanager.hostname}:8032 ResourceManager RPC 服务的地址和端口。
yarn.resourcemanager.webapp.address ${yarn.resourcemanager.hostname}:8088 ResourceManager Web UI 的地址和端口。
yarn.resourcemanager.admin.address ${yarn.resourcemanager.hostname}:8033 ResourceManager 管理服务的地址和端口。
yarn.scheduler.minimum-allocation-mb 1024 单个容器可申请的最小内存(以 MB 为单位)。
yarn.scheduler.maximum-allocation-mb 8192 单个容器可申请的最大内存(以 MB 为单位)。
yarn.nodemanager.resource.memory-mb 8192 NodeManager 可用的总物理内存(以 MB 为单位)。
yarn.scheduler.minimum-allocation-vcores 1 单个容器可申请的最小虚拟 CPU 个数。
yarn.scheduler.maximum-allocation-vcores 32 单个容器可申请的最大虚拟 CPU 个数。
yarn.nodemanager.vmem-pmem-ratio 2.1 虚拟内存与物理内存的比例。
yarn.nodemanager.local-dirs ${hadoop.tmp.dir}/nm-local-dir NodeManager 存储本地化资源的目录列表。
yarn.nodemanager.log-dirs ${yarn.log.dir}/userlogs NodeManager 存储容器日志的目录列表。
yarn.nodemanager.aux-services mapreduce_shuffle NodeManager 提供的辅助服务列表。
yarn.nodemanager.remote-app-log-dir /tmp/logs 存储应用程序日志的远程目录(通常用于日志聚合)。
yarn.nodemanager.recovery.enabled false 是否启用 NodeManager 恢复功能。
yarn.nodemanager.recovery.dir 用于存储 NodeManager 恢复数据的目录。

请注意,这些默认值可能会因 Hadoop 的版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的 YARN 集群的需求和配置。在实际配置中,您应该根据您的 YARN 集群的具体要求和网络环境来设置这些参数。在修改 yarn-site.xml 文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

参考

相关推荐
Austindatabases9 分钟前
OceanBase4.0 跟我学--分布式到底可靠不可靠,到底丢不丢数 ---- 什么是PALF
分布式
小小酥诶40 分钟前
【OpenHarmony】初识设备间互联互通的统一基础:分布式软总线
分布式·开源·harmonyos·鸿蒙
weixin_307779131 小时前
大数据、云计算和容器技术软件开发技能笔试题
大数据·python·spark·云计算·aws
海森大数据1 小时前
人工智能时代的计算化学实验:量子化学与机器学习的融合
大数据·人工智能·神经网络·机器学习
魏+Mtiao15_2 小时前
短视频矩阵系统功能介绍与独立部署流程
java·大数据·人工智能·矩阵
Easy_Company2 小时前
关于Redis哨兵机制实验操作步骤
java·大数据·数据库·redis·缓存
怪咖码农2 小时前
rabbitMq的rabbitmqctl status报错
java·spring boot·分布式·spring cloud·rabbitmq
重生之Java开发工程师2 小时前
RabbitMQ如何保证消息不被重复消费
分布式·rabbitmq
Elastic 中国社区官方博客2 小时前
在 Kibana 中为 Vega Sankey 可视化添加过滤功能
大数据·elasticsearch·信息可视化·数据挖掘·数据分析·全文检索·vega
合合技术团队2 小时前
DocFlow票据AI自动化处理工具:出色的文档解析+抽取能力,提升企业文档数字化管理效能
大数据·人工智能·自动化·文档解析