Spark-SQL核心编程

  1. Spark-SQL连接Hive概述:Spark SQL编译时可选择包含Hive支持,包含后能支持Hive表访问、UDF、HQL等功能,且无需事先安装Hive,编译时引入Hive支持为佳。

  2. 连接方式

内嵌Hive:使用简单,直接可用,但实际生产中很少使用。

外部Hive:在spark-shell中连接外部Hive,需拷贝hive-site.xml到conf/目录并修改其中的url、将MySQL驱动拷贝到jars/目录、把core-site.xml和hdfs-site.xml拷贝到conf/目录,最后重启spark-shell。

代码操作Hive:先导入spark-hive_2.12和hive-exec依赖;接着把hive-site.xml拷贝到项目resources目录;然后编写代码设置Spark配置、启用Hive支持。若报错,可设置HADOOP_USER_NAME解决;还可通过配置修改数据库仓库地址,解决数据库位置异常问题。

相关推荐
技术与健康1 小时前
LLM实践系列:利用LLM重构数据科学流程03- LLM驱动的数据探索与清洗
大数据·人工智能·重构
TDengine (老段)1 小时前
TDengine IDMP 应用场景:工业锅炉监控
大数据·数据库·物联网·信息可视化·时序数据库·tdengine
软件开发明哥3 小时前
BigData大数据应用开发学习笔记(06)实时检索--HBase
大数据
杨荧4 小时前
基于Python的农作物病虫害防治网站 Python+Django+Vue.js
大数据·前端·vue.js·爬虫·python
卖寂寞的小男孩6 小时前
spark数据缓存机制
大数据·缓存·spark
jiedaodezhuti7 小时前
Flink直接缓冲存储器异常解析与解决方案
大数据·flink
代码的余温8 小时前
Elasticsearch Master选举机制解析
大数据·elasticsearch·搜索引擎
计算机源码社8 小时前
计算机毕设选题推荐 基于Spark的家庭能源消耗智能分析与可视化系统 基于机器学习的家庭能源消耗预测与可视化系统源码
大数据·机器学习·数据分析·spark·毕业设计·课程设计·毕业设计源码
IT研究室9 小时前
大数据毕业设计选题推荐-基于大数据的北京市医保药品数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化
Flink_China9 小时前
Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台
大数据·flink