spark集成hive

集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:

ambari版本

Version 2.7.4.0

HDP版本

HDP-3.1.4.0

hive版本

3.1.0

spark版本

2.3.0

集群前提条件:

1.Hdp、Spark、Hive都已部署好

2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。

spark集成hive

1.修改spark配置: Advanced spark2-defaults

spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置

/warehouse/tablespace/managed/hive

2.修改spark配置: Advanced spark2-hive-site-overrid

metastore.catalog.default 值 spark 改为 hive

  1. 修改hive配置: 到hive组件修改配置

hive.strict.managed.tables 的 true 改为 false

相关推荐
TDengine (老段)9 分钟前
TDengine 数学函数 FLOOR 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
派可数据BI可视化2 小时前
商业智能BI 浅谈数据孤岛和数据分析的发展
大数据·数据库·数据仓库·信息可视化·数据挖掘·数据分析
jiedaodezhuti3 小时前
Flink性能调优基石:资源配置与内存优化实践
大数据·flink
Lx3524 小时前
Flink窗口机制详解:如何处理无界数据流
大数据
Lx3524 小时前
深入理解Flink的流处理模型
大数据
Lx3524 小时前
Flink vs Spark Streaming:谁更适合你的实时处理需求?
大数据
QYResearch4 小时前
全球香水行业现状调研与发展前景预测(2025-2031年)
大数据
QYResearch4 小时前
全球与中国空气净化器市场规模前景
大数据
连线Insight4 小时前
竞逐AI内容,爱奇艺先出手了
大数据·人工智能
阿里云大数据AI技术5 小时前
从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布
spark