Spark SQL读写Hive Table部署

个人博客地址:Spark SQL读写Hive Table部署 | 一张假钞的真实世界

官网参考文档:Hive Tables

本文使用的组件版本如下:

  • Spark 3.1.2
  • Hive 3.1.2

第一步:Hive部署

在所有Worker节点上部署Hive。主要是使用Hive下面的libs。

第二步:Spark CLASSPATH

在${SPARK_HOME}/conf/spark-env.sh中添加以下内容:

复制代码
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

第三步:编译Spark

编译的目的是支持Hive。

复制代码
./dev/make-distribution.sh --tgz -Phive -Phive-thriftserver -Pyarn -Dhadoop.version=3.2.2 -Phadoop-provided

第四步:部署Spark On Yarn

部署过程比较简单。部署过程遇到的问题参见另外一篇博文:Spark on YARN部署

第五步:兼容Hive 3.1.2

  • 将hive-site.xml复制到spark配置目录下。

  • 在配置文件spark-defaults.conf中添加以下内容。假设Hive安装目录为:/opt/hive。

    spark.sql.hive.metastore.version 3.1.2
    spark.sql.hive.metastore.jars path
    spark.sql.hive.metastore.jars.path file:///opt/hive/lib/*.jar

注意:这些Jar包需要使用Hive 3.1.2版本的。

相关推荐
Learn-Python5 小时前
MongoDB-only方法
python·sql
是小章啊5 小时前
MySQL 之SQL 执行规则及索引详解
数据库·sql·mysql
齐 飞9 小时前
使用阿里云的MaxCompute查询sql时报错:DruidPooledPreparedStatement: getMaxFieldSize error
sql·阿里云·odps
Lonely丶墨轩10 小时前
从登录入口窥见架构:一个企业级双Token认证系统的深度拆解
java·数据库·sql
周末吃鱼13 小时前
MySQL CTE:SQL查询新模式
数据库·sql·mysql
巧克力味的桃子13 小时前
Spark 课程核心知识点复习汇总
大数据·分布式·spark
木风小助理13 小时前
解读 SQL 累加计算:从传统方法到窗口函数
大数据·数据库·sql
Justice Young14 小时前
Hive第四章:HIVE Operators and Functions
大数据·数据仓库·hive·hadoop
LF3_15 小时前
hive,Relative path in absolute URI: ${system:user.name%7D 解决
数据仓库·hive·hadoop
Light6015 小时前
智能重构人货场:领码SPARK破解快消行业增长困局的全景解决方案
spark·数字化转型·ai大模型·智能营销·快消行业·供应链优化