Spark SQL读写Hive Table部署

个人博客地址:Spark SQL读写Hive Table部署 | 一张假钞的真实世界

官网参考文档:Hive Tables

本文使用的组件版本如下:

  • Spark 3.1.2
  • Hive 3.1.2

第一步:Hive部署

在所有Worker节点上部署Hive。主要是使用Hive下面的libs。

第二步:Spark CLASSPATH

在${SPARK_HOME}/conf/spark-env.sh中添加以下内容:

复制代码
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

第三步:编译Spark

编译的目的是支持Hive。

复制代码
./dev/make-distribution.sh --tgz -Phive -Phive-thriftserver -Pyarn -Dhadoop.version=3.2.2 -Phadoop-provided

第四步:部署Spark On Yarn

部署过程比较简单。部署过程遇到的问题参见另外一篇博文:Spark on YARN部署

第五步:兼容Hive 3.1.2

  • 将hive-site.xml复制到spark配置目录下。

  • 在配置文件spark-defaults.conf中添加以下内容。假设Hive安装目录为:/opt/hive。

    spark.sql.hive.metastore.version 3.1.2
    spark.sql.hive.metastore.jars path
    spark.sql.hive.metastore.jars.path file:///opt/hive/lib/*.jar

注意:这些Jar包需要使用Hive 3.1.2版本的。

相关推荐
番茄撒旦在上24 分钟前
什么样的表适合做拉链表
大数据·数据仓库·hive
嘟嘟w31 分钟前
SQL注入是什么
数据库·sql·oracle
surtr133 分钟前
数据库基础(数据库原理和应用)
数据库·sql·mysql·oracle·database
howard200536 分钟前
Hive实战任务 - 9.5 实现网址去重
hive·网址去重
howard200543 分钟前
Hive实战任务 - 9.4 分科汇总求月考平均分
hive·分科汇总月考平均分
卓码软件测评1 小时前
CMA/CNAS软件测评机构:【Gatling数据库性能关联测试JDBC连接和SQL执行时间监控】
数据库·sql·测试工具·性能优化·测试用例
howard20052 小时前
Hive实战任务 - 9.2 统计总分与平均分
hive·统计总分与平均分
hid646637222 小时前
基于改进粒子群算法的无人机三维路径规划——MATLAB运行效果图
sql
guoyiguang22 小时前
mysql in 查询 没有限制1000个,默认是sql大小4M大小
数据库·sql·mysql
Hello.Reader2 小时前
Flink SQL 的 USE / USE CATALOG / USE MODULES(Catalog、Database、Module 三件套)
数据库·sql·flink