Hadoop之mapreduce参数大全-7

151.设置客户端与 AM 之间的IPC(Inter-Process Communication)连接在发生超时时的最大重试次数

yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的一个配置属性。该属性用于设置客户端与 AM 之间的IPC(Inter-Process Communication)连接在发生超时时的最大重试次数。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts

  • 描述: 该属性指定了客户端与 MapReduce Application Master 之间的IPC连接在发生超时时的最大重试次数。IPC连接用于客户端与 AM 进行通信,例如提交任务、获取任务状态等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端与 AM 之间的IPC连接在发生超时时的最大重试次数为 2 次,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.client-am.ipc.max-retries-on-timeouts</name>
      <value>2</value>
    </property>

    上述配置将在发生超时时的最大重试次数设置为 2。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对客户端与 AM 之间的通信可靠性产生影响。确保根据你的需求和网络条件来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

152.设置 MapReduce 客户端与 ResourceManager 之间的 IPC(Inter-Process Communication)连接的最大重试次数

yarn.app.mapreduce.client.max-retries 是 Apache Hadoop YARN 中 MapReduce 客户端的一个配置属性。该属性用于设置 MapReduce 客户端与 ResourceManager 之间的 IPC(Inter-Process Communication)连接的最大重试次数。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client.max-retries

  • 描述: 该属性指定了 MapReduce 客户端与 ResourceManager 之间的 IPC 连接的最大重试次数。IPC 连接用于客户端提交 MapReduce 任务、获取任务状态等。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端与 ResourceManager 之间的 IPC 连接的最大重试次数为 3 次,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.client.max-retries</name>
      <value>3</value>
    </property>

    上述配置将最大重试次数设置为 3。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对客户端与 ResourceManager 之间的通信可靠性产生影响。确保根据你的需求和网络条件来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

153.设置 MapReduce 任务的 Application Master 请求的资源量,以指定 Application Master 的内存资源大小

yarn.app.mapreduce.am.resource.mb 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的一个配置属性。该属性用于设置 MapReduce 任务的 Application Master 请求的资源量,以指定 Application Master 的内存资源大小。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.resource.mb

  • 描述: 该属性指定了 MapReduce Application Master 请求的内存资源量,单位为兆字节(MB)。这是 AM 启动时向 YARN ResourceManager 请求的资源大小。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置 MapReduce Application Master 请求的内存资源为 1024 MB,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.am.resource.mb</name>
      <value>1024</value>
    </property>

    上述配置将设置 AM 请求的内存资源为 1024 MB。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能会影响 MapReduce 任务的性能和资源分配。确保根据你的任务需求和集群资源来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

154.设置 MapReduce 任务的 Application Master 请求的虚拟内核数量,以指定 Application Master 的 CPU 资源需求

yarn.app.mapreduce.am.resource.cpu-vcores 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的一个配置属性。该属性用于设置 MapReduce 任务的 Application Master 请求的虚拟内核数量,以指定 Application Master 的 CPU 资源需求。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.resource.cpu-vcores

  • 描述: 该属性指定了 MapReduce Application Master 请求的虚拟内核数量。这是 AM 启动时向 YARN ResourceManager 请求的 CPU 资源数量。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置 MapReduce Application Master 请求的虚拟内核数量为 2,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.am.resource.cpu-vcores</name>
      <value>2</value>
    </property>

    上述配置将设置 AM 请求的虚拟内核数量为 2。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能会影响 MapReduce 任务的性能和资源分配。确保根据你的任务需求和集群资源来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

155.设置在硬杀(hard kill)操作中,AM 最大的超时时间

yarn.app.mapreduce.am.hard-kill-timeout-ms 是 Apache Hadoop YARN 中 MapReduce Application Master(AM)的配置属性之一。该属性用于设置在硬杀(hard kill)操作中,AM 最大的超时时间。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.am.hard-kill-timeout-ms

  • 描述: 该属性指定了在进行硬杀操作时,AM 允许的最大超时时间。硬杀是指强制终止 AM 进程的操作。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置硬杀操作的最大超时时间为 60000 毫秒(即 60 秒),可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.am.hard-kill-timeout-ms</name>
      <value>60000</value>
    </property>

    上述配置将硬杀操作的最大超时时间设置为 60000 毫秒。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能会影响 MapReduce 任务的执行和 AM 进程的终止行为。确保根据你的需求和集群环境来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

156.设置客户端在提交 MapReduce 任务时的最大重试次数

yarn.app.mapreduce.client.job.max-retries 是 Apache Hadoop YARN 中 MapReduce 客户端的一个配置属性。该属性用于设置客户端在提交 MapReduce 任务时的最大重试次数。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client.job.max-retries

  • 描述: 该属性指定了客户端在提交 MapReduce 任务时的最大重试次数。如果任务提交失败,客户端将尝试重新提交任务,直到达到最大重试次数。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端在提交 MapReduce 任务时的最大重试次数为 3 次,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.client.job.max-retries</name>
      <value>3</value>
    </property>

    上述配置将最大重试次数设置为 3。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对 MapReduce 任务的提交可靠性产生影响。确保根据你的需求和集群环境来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

157.设置客户端在提交 MapReduce 任务时的重试间隔

yarn.app.mapreduce.client.job.retry-interval 是 Apache Hadoop YARN 中 MapReduce 客户端的一个配置属性。该属性用于设置客户端在提交 MapReduce 任务时的重试间隔。

以下是对该配置属性的解释:

  • 属性名称: yarn.app.mapreduce.client.job.retry-interval

  • 描述: 该属性指定了客户端在提交 MapReduce 任务时的重试间隔,即在重试之前等待的时间。如果任务提交失败,客户端将在设定的时间间隔后尝试重新提交任务。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。

  • 示例: 如果你希望设置客户端在提交 MapReduce 任务时的重试间隔为 5000 毫秒(即 5 秒),可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>yarn.app.mapreduce.client.job.retry-interval</name>
      <value>5000</value>
    </property>

    上述配置将重试间隔设置为 5000 毫秒。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。调整这个属性可能对 MapReduce 任务的提交可靠性产生影响。确保根据你的需求和集群环境来调整这个值。更改这个属性可能需要重启与 MapReduce 和 YARN 相关的服务。

158.控制 MapReduce 任务提交时是否支持跨平台执行

mapreduce.app-submission.cross-platform 是 Apache Hadoop MapReduce 中的配置属性之一。该属性用于控制 MapReduce 任务提交时是否支持跨平台执行。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.app-submission.cross-platform

  • 描述: 该属性控制 MapReduce 任务提交时是否支持跨平台执行。当设置为 true 时,表示允许在不同的操作系统上提交和执行 MapReduce 任务。当设置为 false 时,任务只能在与提交节点相同的操作系统上执行。

  • 默认值: 默认情况下,该属性的值可能是 false,即默认不允许跨平台执行。

  • 示例: 如果你希望允许跨平台执行 MapReduce 任务,可以将该属性设置为 true

    xml 复制代码
    <property>
      <name>mapreduce.app-submission.cross-platform</name>
      <value>true</value>
    </property>

    上述配置将允许跨平台执行 MapReduce 任务。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解在特定的环境中是否需要跨平台执行任务,并根据实际需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

159.指定 MapReduce 程序的框架路径,即 MapReduce 作业运行时所需的库和依赖项的路径

mapreduce.application.framework.path 是 Apache Hadoop MapReduce 中的配置属性之一。该属性用于指定 MapReduce 程序的框架路径,即 MapReduce 作业运行时所需的库和依赖项的路径。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.application.framework.path

  • 描述: 该属性指定了 MapReduce 程序的框架路径。框架路径通常包含了 MapReduce 程序运行所需的库、依赖项以及其他相关文件。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你的 MapReduce 程序依赖于特定的库和资源文件,你可以将这些文件放置在某个目录,并将该目录的路径配置到 mapreduce.application.framework.path 中:

    xml 复制代码
    <property>
      <name>mapreduce.application.framework.path</name>
      <value>/path/to/framework</value>
    </property>

    上述配置将 mapreduce.application.framework.path 设置为 /path/to/framework

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保根据你的 MapReduce 作业的依赖项和要求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

160.指定 MapReduce 作业的类加载器(ClassLoader)

mapreduce.job.classloader 是 Apache Hadoop MapReduce 中的配置属性之一。该属性用于指定 MapReduce 作业的类加载器(ClassLoader)。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.classloader

  • 描述: 该属性指定了 MapReduce 作业使用的类加载器。类加载器用于加载作业的类和依赖项。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望使用特定的类加载器,可以将其配置到 mapreduce.job.classloader 中:

    xml 复制代码
    <property>
      <name>mapreduce.job.classloader</name>
      <value>org.apache.hadoop.mapreduce.v2.app.MRAppClassLoader</value>
    </property>

    上述配置将 mapreduce.job.classloader 设置为 org.apache.hadoop.mapreduce.v2.app.MRAppClassLoader

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业的类加载需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

161.指定由系统类加载器加载的类列表

mapreduce.job.classloader.system.classes 是 Apache Hadoop MapReduce 中的配置属性之一,用于指定由系统类加载器加载的类列表。系统类加载器是指加载 Java 运行时系统类的加载器。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.job.classloader.system.classes

  • 描述: 该属性指定了由系统类加载器加载的类的列表。这些类将不受 MapReduce 作业类加载器的影响,而是由系统类加载器加载。这个配置属性的值是一个以逗号分隔的类名列表。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望由系统类加载器加载 com.example.MySystemClassorg.apache.hadoop.mapreduce.* 下的所有类,可以将其配置到 mapreduce.job.classloader.system.classes 中:

    xml 复制代码
    <property>
      <name>mapreduce.job.classloader.system.classes</name>
      <value>com.example.MySystemClass,org.apache.hadoop.mapreduce.*</value>
    </property>

    上述配置将由系统类加载器加载的类指定为 com.example.MySystemClassorg.apache.hadoop.mapreduce.* 下的所有类。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业的类加载需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

162.指定要记录到任务日志的 JVM 系统属性列表

mapreduce.jvm.system-properties-to-log 是 Apache Hadoop MapReduce 中的配置属性之一,用于指定要记录到任务日志的 JVM 系统属性列表。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jvm.system-properties-to-log

  • 描述: 该属性指定了在任务运行期间要记录到任务日志的 JVM 系统属性列表。这些系统属性将被记录,以便在调试和分析任务问题时提供有用的信息。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望记录所有的 JVM 系统属性,可以将其配置为 *

    xml 复制代码
    <property>
      <name>mapreduce.jvm.system-properties-to-log</name>
      <value>*</value>
    </property>

    上述配置将记录所有的 JVM 系统属性。

    如果你只想记录特定的系统属性,可以列出它们的名称,例如:

    xml 复制代码
    <property>
      <name>mapreduce.jvm.system-properties-to-log</name>
      <value>user.name,hadoop.tmp.dir</value>
    </property>

    上述配置将只记录 user.namehadoop.tmp.dir 这两个系统属性。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业的调试需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

163.指定 JobHistoryServer 的监听地址

mapreduce.jobhistory.address 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 的监听地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.address

  • 描述: 该属性指定了 JobHistoryServer 监听的网络地址。JobHistoryServer 负责管理和显示已完成的 MapReduce 作业的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,JobHistoryServer 可能会监听本地地址(localhost)。

  • 示例: 如果你希望 JobHistoryServer 在特定的主机和端口上监听,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.address</name>
      <value>hostname:port</value>
    </property>

    其中 hostname 是 JobHistoryServer 监听的主机名或 IP 地址,port 是端口号。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保 JobHistoryServer 的地址与你的集群环境相匹配,并根据需要进行配置。更改这个属性可能需要重启与 MapReduce 相关的服务。

164.指定 JobHistoryServer Web 应用程序的监听地址

mapreduce.jobhistory.webapp.address 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer Web 应用程序的监听地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.address

  • 描述: 该属性指定了 JobHistoryServer Web 应用程序监听的网络地址。JobHistoryServer Web 应用程序提供了一个用户界面,用于查看和检索已完成的 MapReduce 作业的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,JobHistoryServer Web 应用程序可能会监听本地地址(localhost)。

  • 示例: 如果你希望 JobHistoryServer Web 应用程序在特定的主机和端口上监听,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>hostname:port</value>
    </property>

    其中 hostname 是 JobHistoryServer Web 应用程序监听的主机名或 IP 地址,port 是端口号。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保 JobHistoryServer Web 应用程序的地址与你的集群环境相匹配,并根据需要进行配置。更改这个属性可能需要重启与 MapReduce 相关的服务。

165.指定启用 HTTPS 的 JobHistoryServer Web 应用程序的监听地址

mapreduce.jobhistory.webapp.https.address 是 Apache Hadoop MapReduce 中的配置属性,用于指定启用 HTTPS 的 JobHistoryServer Web 应用程序的监听地址。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.webapp.https.address

  • 描述: 该属性指定了启用 HTTPS 的 JobHistoryServer Web 应用程序监听的网络地址。JobHistoryServer Web 应用程序提供了一个用户界面,用于查看和检索已完成的 MapReduce 作业的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,JobHistoryServer Web 应用程序可能会监听本地地址(localhost)。

  • 示例: 如果你希望 JobHistoryServer Web 应用程序在特定的主机和端口上启用 HTTPS 监听,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.webapp.https.address</name>
      <value>hostname:port</value>
    </property>

    其中 hostname 是 JobHistoryServer Web 应用程序启用 HTTPS 监听的主机名或 IP 地址,port 是 HTTPS 端口号。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保 JobHistoryServer Web 应用程序的 HTTPS 地址与你的集群环境相匹配,并根据需要进行配置。更改这个属性可能需要重启与 MapReduce 相关的服务。

166.指定 JobHistoryServer 使用的服务主体对应的 keytab 文件路径

mapreduce.jobhistory.keytab 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 使用的服务主体对应的 keytab 文件路径。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.keytab

  • 描述: 该属性指定了 JobHistoryServer 使用的服务主体对应的 keytab 文件的路径。keytab 文件通常包含了服务主体的密钥信息,用于进行身份验证。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你的 JobHistoryServer 使用的服务主体是 mapred/_HOST@EXAMPLE.COM,并且对应的 keytab 文件位于 /etc/security/keytabs/mapred.headless.keytab,可以将该属性配置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.keytab</name>
      <value>/etc/security/keytabs/mapred.headless.keytab</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的安全配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

167.指定 JobHistoryServer 使用的服务主体

mapreduce.jobhistory.principal 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 使用的服务主体。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.principal

  • 描述: 该属性指定了 JobHistoryServer 使用的服务主体。服务主体通常用于进行身份验证。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你的 JobHistoryServer 使用的服务主体是 mapred/_HOST@EXAMPLE.COM,可以将该属性配置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.principal</name>
      <value>mapred/_HOST@EXAMPLE.COM</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的 JobHistoryServer 的安全配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

168.指定用于标记作业历史信息中间完成的目录

mapreduce.jobhistory.intermediate-done-dir 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定用于标记作业历史信息中间完成的目录。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.intermediate-done-dir

  • 描述: 该属性指定了 MapReduce 作业历史服务器用于标记作业已经完成的中间目录。这个目录包含一个 "done" 文件,该文件表示作业已经完成,历史服务器可以开始处理该作业的历史信息。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望将中间完成标记文件放置在 /user/history/done_intermediate 目录下,可以将该属性配置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.intermediate-done-dir</name>
      <value>/user/history/done_intermediate</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

169.指定用于标记用户作业历史信息中间完成的目录的权限

mapreduce.jobhistory.intermediate-user-done-dir.permissions 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定用于标记用户作业历史信息中间完成的目录的权限。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.intermediate-user-done-dir.permissions

  • 描述: 该属性指定了 MapReduce 作业历史服务器用于标记用户作业已经完成的中间目录的权限。这个目录包含一个 "done" 文件,该文件表示用户作业已经完成,历史服务器可以开始处理该作业的历史信息。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望将中间完成标记文件放置在 /user/history/done_intermediate 目录下,并设置该目录的权限为 750,可以将该属性配置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.intermediate-user-done-dir.permissions</name>
      <value>750</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

170.指定是否总是扫描用户目录以查找历史信息

mapreduce.jobhistory.always-scan-user-dir 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否总是扫描用户目录以查找历史信息。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.always-scan-user-dir

  • 描述: 该属性用于控制 JobHistoryServer 是否总是扫描用户目录以查找历史信息。当设置为 true 时,JobHistoryServer 将始终扫描用户目录。当设置为 false 时,JobHistoryServer 只在检测到新的用户目录时才会进行扫描。

  • 默认值: 默认情况下,该属性的值可能是 false,即 JobHistoryServer 可能不总是扫描用户目录。

  • 示例: 如果你希望 JobHistoryServer 总是扫描用户目录以查找历史信息,可以将该属性设置为 true

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.always-scan-user-dir</name>
      <value>true</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据实际需求和集群环境来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

171.指定 JobHistoryServer 存储已完成作业历史信息的目录

mapreduce.jobhistory.done-dir 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 存储已完成作业历史信息的目录。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.done-dir

  • 描述: 该属性指定了 JobHistoryServer 存储已完成作业历史信息的目录。这个目录包含已经完成的 MapReduce 作业的历史信息,以便用户和管理员可以查看。

  • 默认值: 该属性通常没有一个固定的默认值,因为它需要根据实际部署情况来配置。

  • 示例: 如果你希望将已完成作业历史信息存储在 /user/history/done 目录下,可以将该属性配置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.done-dir</name>
      <value>/user/history/done</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

172.指定是否启用 JobHistoryServer 的历史信息清理功能

mapreduce.jobhistory.cleaner.enable 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定是否启用 JobHistoryServer 的历史信息清理功能。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.cleaner.enable

  • 描述: 该属性用于控制是否启用 JobHistoryServer 的历史信息清理功能。当设置为 true 时,JobHistoryServer 将定期清理过时的历史信息。

  • 默认值: 默认情况下,该属性的值可能是 false,即历史信息清理功能可能处于禁用状态。

  • 示例: 如果你希望启用历史信息清理功能,可以将该属性设置为 true

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.cleaner.enable</name>
      <value>true</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。启用历史信息清理功能可以帮助管理集群中的历史信息,并释放磁盘空间。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

173.指定 JobHistoryServer 历史信息清理功能运行的时间间隔

mapreduce.jobhistory.cleaner.interval-ms 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 历史信息清理功能运行的时间间隔。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.cleaner.interval-ms

  • 描述: 该属性指定了 JobHistoryServer 历史信息清理功能运行的时间间隔。清理功能将定期检查并删除过时的历史信息。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,清理功能可能以较长的时间间隔运行。

  • 示例: 如果你希望将清理功能的运行间隔设置为 24 小时,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.cleaner.interval-ms</name>
      <value>86400000</value>
    </property>

    上述配置将清理功能的运行间隔设置为 24 小时(24 * 60 * 60 * 1000 毫秒)。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

174.指定历史信息在 JobHistoryServer 中保留的最长时间

mapreduce.jobhistory.max-age-ms 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定历史信息在 JobHistoryServer 中保留的最长时间。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.max-age-ms

  • 描述: 该属性指定了历史信息在 JobHistoryServer 中保留的最长时间。超过此时间的历史信息将被清理。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,历史信息可能会被保留相对较长的时间。

  • 示例: 如果你希望将历史信息的最大保留时间设置为 30 天,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.max-age-ms</name>
      <value>2592000000</value>
    </property>

    上述配置将历史信息的最大保留时间设置为 30 天(30 * 24 * 60 * 60 * 1000 毫秒)。

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。确保了解你的作业历史服务器的配置需求,并根据实际情况配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

175.指定 JobHistoryServer 客户端处理请求的线程数量

mapreduce.jobhistory.client.thread-count 是 Apache Hadoop MapReduce 中的一个配置属性,用于指定 JobHistoryServer 客户端处理请求的线程数量。

以下是对该配置属性的解释:

  • 属性名称: mapreduce.jobhistory.client.thread-count

  • 描述: 该属性指定了 JobHistoryServer 客户端处理请求的线程数量。这影响了 JobHistoryServer 能够同时处理的客户端请求的数量。

  • 默认值: 该属性通常有一个默认值,如果未显式设置,则使用默认值。默认情况下,可能会有一个适当的线程数量。

  • 示例: 如果你希望将 JobHistoryServer 客户端处理请求的线程数量设置为 50,可以将该属性设置如下:

    xml 复制代码
    <property>
      <name>mapreduce.jobhistory.client.thread-count</name>
      <value>50</value>
    </property>

这个配置属性通常是在 mapred-site.xml 文件中配置的,该文件位于 Hadoop 的配置目录中。根据你的 JobHistoryServer 的负载和性能需求来配置这个属性。更改这个属性可能需要重启与 MapReduce 相关的服务。

相关推荐
在下不上天15 分钟前
Flume日志采集系统的部署,实现flume负载均衡,flume故障恢复
大数据·开发语言·python
智慧化智能化数字化方案1 小时前
华为IPD流程管理体系L1至L5最佳实践-解读
大数据·华为
PersistJiao2 小时前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景
大数据·spark·top·sortby
2301_811274312 小时前
大数据基于Spring Boot的化妆品推荐系统的设计与实现
大数据·spring boot·后端
Yz98762 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交2 小时前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
武子康2 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康2 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
时差9533 小时前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署
锵锵锵锵~蒋3 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发