Hive3第六章:更换引擎

系列文章目录

Hive3第一章:环境安装
Hive3第二章:简单交互
Hive3第三章:DML数据操作
Hive3第三章:DML数据操作(二)
Hive3第四章:分区表和分桶表
Hive3第五章:函数

Hive3第六章:更换引擎


文章目录


前言

这个博客主要是作为数仓项目的一次补充,主要是更换hive引擎,传统的MR引擎在hive2之后就不推荐了,我们这次更换spark引擎,使用hive on yarn。


一、更换hive

通过官方的版本依赖,现在的hive是不支持spark3的,所以我们需要重新编译,可以使用idea打开源码,然后修改pom.xml中的spark和scala版本,考虑到各种问题,这里就不专门演示了。博主能力有限,没成功。具体文件可以去尚硅谷的线上问诊的离线数仓的项目里下载一个。

二、安装hive

先正常安装hive
hive安装

三、更换引擎

1.部署Spark纯净版

下载地址spark-3.3.1-bin-without-hadoop.tgz

上传并解压

2.修改配置文件

mv spark-env.sh.template spark-env.sh

vim /opt/module/spark/conf/spark-env.sh

最底下加一行。

bash 复制代码
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

sudo vim /etc/profile.d/my_env.sh

bash 复制代码
# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

source 一下

bash 复制代码
source /etc/profile.d/my_env.sh

vim /opt/module/hive/conf/spark-defaults.conf

bash 复制代码
spark.master                               yarn
spark.eventLog.enabled                   true
spark.eventLog.dir                        hdfs://hadoop102:8020/spark-history
spark.executor.memory                    1g
spark.driver.memory					     1g

vim /opt/module/hive/conf/hive-site.xml

bash 复制代码
<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
    <name>spark.yarn.jars</name>
    <value>hdfs://hadoop102:8020/spark-jars/*</value>
</property>
  
<!--Hive执行引擎-->
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
</property>

3.HDFS创建目录

bash 复制代码
hadoop fs -mkdir /spark-jars
hadoop fs -mkdir /spark-history

4.上传jar包

bash 复制代码
hadoop fs -put /opt/module/spark/jars/* /spark-jars

5.hive测试

bash 复制代码
create table student(id int, name string);
insert into table student values(1,'abc');

由于第一次调用会调用spark的jar包,所以第一次时间会长一点。

再插入一条

insert into table student values(2,'abcd');

到此引擎更换完成。


总结

hive更换引擎是数仓学习中很通用的,所以这里单拎出来简单说一下。

相关推荐
兔子宇航员03018 小时前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
Irene199112 小时前
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
hive·sql·oracle
无关868813 小时前
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程
大数据·hive·spark
小欣加油2 天前
Hive综合应用案例——用户学历查询
数据仓库·hive·hadoop
yumgpkpm3 天前
Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)
大数据·hive·hadoop·分布式·zookeeper·spark·kafka
juniperhan5 天前
Flink 系列第25篇:Flink SQL 集成 Hive 实践:流批一体下的实时数仓利器
大数据·数据仓库·hive·分布式·sql·flink
r-t-H6 天前
从零开始搭建CDH-第十二章
linux·hive·spark·centos·hbase
王小王-1236 天前
基于Hadoop的服装电商数据分析系统【Hdfs、flume、HIve、sqoop、MySQL、echarts】
hive·hadoop·hdfs·服装电商分析·服装大数据
青春万岁!!6 天前
hiveSQL脚本性能优化-减少表扫描
大数据·hive·sql
阿坤带你走近大数据8 天前
HiveSQL常见性能调优策略与经验
hive·sql·调优