课堂总结。

Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)、Hive 查询语言(HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。

使用方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline 以及代码操作。

1)内嵌的 HIVE

2)外部的 HIVE

在虚拟机中下载以下配置文件:

如果想在spark-shell中连接外部已经部署好的 Hive,需要通过以下几个步骤:

➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下,并将url中的localhost改为node01

相关推荐
overFitBrain4 小时前
机器学习基础-numpy
人工智能·机器学习·numpy
一百天成为python专家2 天前
数据可视化
开发语言·人工智能·python·机器学习·信息可视化·numpy
赴3353 天前
Numpy 库 矩阵数学运算,点积,文件读取和保存等
人工智能·算法·numpy·random·dot
海哥编程3 天前
Python 数据分析(一):NumPy 基础知识
python·数据分析·numpy
赴3355 天前
numpy库 降维,矩阵创建与元素的选取,修改
numpy·flatten
paid槮6 天前
Python进阶第三方库之Numpy
开发语言·python·numpy
星期天要睡觉6 天前
NumPy库使用教学,简单详细。
numpy
lxmyzzs6 天前
【bug】Yolo11在使用tensorrt推理numpy报错
yolo·计算机视觉·bug·numpy
WBluuue6 天前
数学建模:运筹优化类问题
python·算法·数学建模·numpy·动态规划·matplotlib·图论
@MMiL7 天前
Python 中常见的数据管理高效方法
python·numpy·pandas·matplotlib