课堂总结。

Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)、Hive 查询语言(HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。

使用方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline 以及代码操作。

1)内嵌的 HIVE

2)外部的 HIVE

在虚拟机中下载以下配置文件:

如果想在spark-shell中连接外部已经部署好的 Hive,需要通过以下几个步骤:

➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下,并将url中的localhost改为node01

相关推荐
帮帮志6 小时前
07.Python代码NumPy-排序sort,argsort,lexsort
numpy
架构师那点事儿10 小时前
人工智能基础-NumPy-向量矩阵数组库
人工智能·python·numpy
跟着杰哥学Python20 小时前
一文读懂Python之numpy模块(34)
开发语言·python·numpy
热爱编程的OP5 天前
Numpy常用库方法总结
开发语言·python·numpy
ljd2103231248 天前
numpy练习
numpy
满怀10159 天前
【NumPy科学计算引擎:从基础操作到高性能实践】
开发语言·python·numpy
爱学习的capoo9 天前
NumPy对二维矩阵中的每个元素进行加减乘除和对数运算
线性代数·矩阵·numpy
Code_流苏10 天前
《Python星球日记》第22天:NumPy 基础
python·numpy·多维数组·python数据分析·向量化计算
灵均66612 天前
机器学习-线性回归模型
人工智能·机器学习·线性回归·numpy·pandas·scikit-learn·matplotlib