Spark SQL读写Hive Table部署

个人博客地址:Spark SQL读写Hive Table部署 | 一张假钞的真实世界

官网参考文档:Hive Tables

本文使用的组件版本如下:

  • Spark 3.1.2
  • Hive 3.1.2

第一步:Hive部署

在所有Worker节点上部署Hive。主要是使用Hive下面的libs。

第二步:Spark CLASSPATH

在${SPARK_HOME}/conf/spark-env.sh中添加以下内容:

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

第三步:编译Spark

编译的目的是支持Hive。

./dev/make-distribution.sh --tgz -Phive -Phive-thriftserver -Pyarn -Dhadoop.version=3.2.2 -Phadoop-provided

第四步:部署Spark On Yarn

部署过程比较简单。部署过程遇到的问题参见另外一篇博文:Spark on YARN部署

第五步:兼容Hive 3.1.2

  • 将hive-site.xml复制到spark配置目录下。

  • 在配置文件spark-defaults.conf中添加以下内容。假设Hive安装目录为:/opt/hive。

    spark.sql.hive.metastore.version 3.1.2
    spark.sql.hive.metastore.jars path
    spark.sql.hive.metastore.jars.path file:///opt/hive/lib/*.jar

注意:这些Jar包需要使用Hive 3.1.2版本的。

相关推荐
LUCIAZZZ1 小时前
简单的SQL语句的快速复习
java·数据库·sql
好记性+烂笔头3 小时前
4 Spark Streaming
大数据·ajax·spark
想做富婆4 小时前
Hive:窗口函数[ntile, first_value,row_number() ,rank(),dens_rank()]和自定义函数
数据仓库·hive·hadoop
Leven1995275 小时前
Flink (十三) :Table API 与 DataStream API 的转换 (一)
数据库·sql·flink
赵渝强老师12 小时前
【赵渝强老师】Spark RDD的依赖关系和任务阶段
大数据·缓存·spark
小安同学iter15 小时前
MySQL数据库 (三)- 函数/约束/多表查询/事务
大数据·数据库·sql·mysql
weixin_307779131 天前
PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码
大数据·python·spark·云计算·aws
B站计算机毕业设计超人1 天前
计算机毕业设计Python+CNN卷积神经网络考研院校推荐系统 考研分数线预测 考研推荐系统 考研爬虫 考研大数据 Hadoop 大数据毕设 机器学习
hadoop·python·机器学习·spark·网络爬虫·课程设计·数据可视化
努力成为DBA的小王1 天前
MySQL(导入sql文件)
linux·运维·数据库·sql·mysql