Spark SQL读写Hive Table部署

个人博客地址:Spark SQL读写Hive Table部署 | 一张假钞的真实世界

官网参考文档:Hive Tables

本文使用的组件版本如下:

  • Spark 3.1.2
  • Hive 3.1.2

第一步:Hive部署

在所有Worker节点上部署Hive。主要是使用Hive下面的libs。

第二步:Spark CLASSPATH

在${SPARK_HOME}/conf/spark-env.sh中添加以下内容:

复制代码
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

第三步:编译Spark

编译的目的是支持Hive。

复制代码
./dev/make-distribution.sh --tgz -Phive -Phive-thriftserver -Pyarn -Dhadoop.version=3.2.2 -Phadoop-provided

第四步:部署Spark On Yarn

部署过程比较简单。部署过程遇到的问题参见另外一篇博文:Spark on YARN部署

第五步:兼容Hive 3.1.2

  • 将hive-site.xml复制到spark配置目录下。

  • 在配置文件spark-defaults.conf中添加以下内容。假设Hive安装目录为:/opt/hive。

    spark.sql.hive.metastore.version 3.1.2
    spark.sql.hive.metastore.jars path
    spark.sql.hive.metastore.jars.path file:///opt/hive/lib/*.jar

注意:这些Jar包需要使用Hive 3.1.2版本的。

相关推荐
QT.qtqtqtqtqt4 小时前
SQL注入漏洞
java·服务器·sql·安全
龙山云仓4 小时前
MES系统超融合架构
大数据·数据库·人工智能·sql·机器学习·架构·全文检索
华农DrLai5 小时前
Spark SQL Catalyst 优化器详解
大数据·hive·sql·flink·spark
数据知道5 小时前
PostgreSQL 故障排查:紧急排查与 SQL 熔断处理(CPU 占用 100% 等情况)
数据库·sql·postgresql
uesowys14 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
麦聪聊数据16 小时前
Web 原生架构如何重塑企业级数据库协作流?
数据库·sql·低代码·架构
Apple_羊先森19 小时前
ORACLE数据库巡检SQL脚本--19、磁盘读次数最高的前5条SQL语句
数据库·sql·oracle
十月南城20 小时前
Hive与离线数仓方法论——分层建模、分区与桶的取舍与查询代价
数据仓库·hive·hadoop
l1t21 小时前
DeepSeek总结的PostgreSQL的GPT推理SQL移植到DuckDB的性能优化方法
sql·gpt·postgresql
鹏说大数据1 天前
Spark 和 Hive 的关系与区别
大数据·hive·spark