课堂总结。

Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)、Hive 查询语言(HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。

使用方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline 以及代码操作。

1)内嵌的 HIVE

2)外部的 HIVE

在虚拟机中下载以下配置文件:

如果想在spark-shell中连接外部已经部署好的 Hive,需要通过以下几个步骤:

➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下,并将url中的localhost改为node01

相关推荐
家家小迷弟2 天前
docker容器内部安装python和numpy的方法
python·docker·numpy
蓝眸少年CY2 天前
Python科学计算 Numpy库
开发语言·python·numpy
谢景行^顾3 天前
numpy
开发语言·python·numpy
咚咚王者6 天前
人工智能之数据分析 numpy:第十三章 工具衔接与迁移
人工智能·数据分析·numpy
咚咚王者6 天前
人工智能之数据分析 numpy:第九章 数组运算(二)
人工智能·数据分析·numpy
咚咚王者7 天前
人工智能之数据分析 numpy:第十二章 数据持久化
人工智能·数据分析·numpy
咚咚王者9 天前
人工智能之数据分析 numpy:第十五章 项目实践
人工智能·数据分析·numpy
咚咚王者12 天前
人工智能之数据分析 numpy:第十章 副本视图
人工智能·数据分析·numpy
咚咚王者12 天前
人工智能之数据分析 numpy:第十一章 字符串与字节交换
人工智能·数据分析·numpy
AI小云14 天前
【数据操作与可视化】Pandas数据处理-Series数据结构
开发语言·数据结构·python·numpy·pandas