Spark SQL读写Hive Table部署

个人博客地址:Spark SQL读写Hive Table部署 | 一张假钞的真实世界

官网参考文档:Hive Tables

本文使用的组件版本如下:

  • Spark 3.1.2
  • Hive 3.1.2

第一步:Hive部署

在所有Worker节点上部署Hive。主要是使用Hive下面的libs。

第二步:Spark CLASSPATH

在${SPARK_HOME}/conf/spark-env.sh中添加以下内容:

复制代码
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

第三步:编译Spark

编译的目的是支持Hive。

复制代码
./dev/make-distribution.sh --tgz -Phive -Phive-thriftserver -Pyarn -Dhadoop.version=3.2.2 -Phadoop-provided

第四步:部署Spark On Yarn

部署过程比较简单。部署过程遇到的问题参见另外一篇博文:Spark on YARN部署

第五步:兼容Hive 3.1.2

  • 将hive-site.xml复制到spark配置目录下。

  • 在配置文件spark-defaults.conf中添加以下内容。假设Hive安装目录为:/opt/hive。

    spark.sql.hive.metastore.version 3.1.2
    spark.sql.hive.metastore.jars path
    spark.sql.hive.metastore.jars.path file:///opt/hive/lib/*.jar

注意:这些Jar包需要使用Hive 3.1.2版本的。

相关推荐
basketball6164 小时前
SQL 常用数据格式化操作方法总结
数据库·sql
handler017 小时前
【MySQL】教你库与表的增删查改操作(基础)
运维·数据库·笔记·sql·mysql·数据·分析
姚不倒8 小时前
从零实现一个基于 Ollama + Go + MySQL 的 Text-to-SQL 智能体(M1 实战)
sql·mysql·云原生·golang
basketball6169 小时前
SQL 基础面试考点总结
数据库·sql·面试
woshilys11 小时前
sql server 查询外键
数据库·sql·sqlserver
雨辰AI13 小时前
人大金仓慢 SQL 根治方法论:问题定位 - 分析 - 优化全流程
数据库·后端·sql·mysql·政务
问心无愧051313 小时前
ctf show web 入门173
数据库·笔记·sql·mysql
r-t-H16 小时前
从零开始搭建CDH-第十四章
spark·kafka·centos·cloudera
basketball61616 小时前
SQL 常用运算符操作方法总结
数据库·sql
山峰哥16 小时前
从Explain到SQL优化:一次生产环境慢查询的完整调优复盘
大数据·数据库·sql·性能优化·深度优先·宽度优先