spark集成hive

集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:

ambari版本

Version 2.7.4.0

HDP版本

HDP-3.1.4.0

hive版本

3.1.0

spark版本

2.3.0

集群前提条件:

1.Hdp、Spark、Hive都已部署好

2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。

spark集成hive

1.修改spark配置: Advanced spark2-defaults

spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置

/warehouse/tablespace/managed/hive

2.修改spark配置: Advanced spark2-hive-site-overrid

metastore.catalog.default 值 spark 改为 hive

  1. 修改hive配置: 到hive组件修改配置

hive.strict.managed.tables 的 true 改为 false

相关推荐
Coder_Boy_10 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
2501_9449347310 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
Gain_chance10 小时前
34-学习笔记尚硅谷数仓搭建-DWS层最近一日汇总表建表语句汇总
数据仓库·hive·笔记·学习·datagrip
九河云11 小时前
5秒开服,你的应用部署还卡在“加载中”吗?
大数据·人工智能·安全·机器学习·华为云
Gain_chance11 小时前
36-学习笔记尚硅谷数仓搭建-DWS层数据装载脚本
大数据·数据仓库·笔记·学习
每日新鲜事12 小时前
热销复盘:招商林屿缦岛203套售罄背后的客户逻辑分析
大数据·人工智能
Gain_chance12 小时前
35-学习笔记尚硅谷数仓搭建-DWS层最近n日汇总表及历史至今汇总表建表语句
数据库·数据仓库·hive·笔记·学习
AI架构全栈开发实战笔记13 小时前
Eureka 在大数据环境中的性能优化技巧
大数据·ai·eureka·性能优化
AI架构全栈开发实战笔记13 小时前
Eureka 对大数据领域服务依赖关系的梳理
大数据·ai·云原生·eureka
自挂东南枝�13 小时前
政企舆情大数据服务平台的“全域洞察中枢”
大数据