课堂总结。

Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)、Hive 查询语言(HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。

使用方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline 以及代码操作。

1)内嵌的 HIVE

2)外部的 HIVE

在虚拟机中下载以下配置文件:

如果想在spark-shell中连接外部已经部署好的 Hive,需要通过以下几个步骤:

➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下,并将url中的localhost改为node01

相关推荐
叫我:松哥1 天前
基于scrapy的网易云音乐数据采集与分析设计实现
python·信息可视化·数据分析·beautifulsoup·numpy·pandas
_Soy_Milk1 天前
【算法工程师】—— Python 数据分析
python·数据分析·numpy·pandas·matplotlib
强化试剂瓶2 天前
Acridinium-Biotin,吖啶生物素偶联物双功能设计的精妙之处
flask·numpy·fastapi·web3.py·tornado
张祥6422889042 天前
误差理论与测量平差基础笔记七
线性代数·机器学习·numpy
七夜zippoe5 天前
NumPy向量化计算实战:从入门到精通的性能优化指南
python·性能优化·架构·numpy·广播机制·ufunc
one day3217 天前
从numpy-pillow-opencv的基础学习
opencv·numpy·pillow
lrh1228009 天前
Numpy学习
numpy
拾贰_C9 天前
[python | numpy] numpy& matplotib冲突
开发语言·python·numpy
陈晨辰熟稳重11 天前
20260113-np.random.multinomial 与 torch.multinomial
pytorch·python·numpy·采样·multinomial
charlie11451419112 天前
从 0 开始的机器学习——NumPy 线性代数部分
开发语言·人工智能·学习·线性代数·算法·机器学习·numpy