Hive 整合 Spark 全教程（Hive on Spark）

复制代码

<property>
    <name>hadoop.proxyuser.luanhao.groups</name>
    <value>*</value>

hadoop.proxyuser.luanhao.groups *

复制代码

2）HDFS配置文件


配置hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> dfs.namenode.http-address Bigdata00:9870

复制代码

<!-- 2nn web端访问地址-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>Bigdata00:9868</value>
</property>

<!-- 测试环境指定HDFS副本的数量1 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>


3）YARN配置文件


配置yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> yarn.nodemanager.aux-services mapreduce_shuffle

复制代码

<!-- 指定ResourceManager的地址-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>Bigdata00</value>
</property>

<!-- 环境变量的继承 -->
<property>
    <name>yarn.nodemanager.env-whitelist</name>

JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

复制代码

<!-- yarn容器允许分配的最大最小内存 -->
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>512</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>4096</value>
</property>

<!-- yarn容器允许管理的物理内存大小 -->
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
</property>

<!-- 关闭yarn对物理内存和虚拟内存的限制检查 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>


4）MapReduce配置文件


配置mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> mapreduce.framework.name yarn

复制代码

5）配置workers

Bigdata00

复制代码

6）配置hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_212

复制代码

#### 配置历史服务器


为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：


配置mapred-site.xml

mapreduce.jobhistory.address Bigdata00:10020 mapreduce.jobhistory.webapp.address Bigdata00:19888

复制代码

#### 配置日志的聚集


日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。


日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。


注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。


开启日志聚集功能具体步骤如下：


配置yarn-site.xml

yarn.log-aggregation-enable true yarn.log.server.url http://Bigdata00:19888/jobhistory/logs yarn.log-aggregation.retain-seconds 604800

复制代码

#### 启动集群


（1）如果集群是第一次启动，需要在Bigdata00节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

Hive 整合 Spark 全教程 （Hive on Spark）

Hive 整合 Spark 全教程（Hive on Spark）