【大数据学习 | Spark】Spark on hive与 hive on Spark的区别

Mephisto.java2024-12-02 14:23

1. Spark on hive

Spark on hive指的是使用Hive的元数据（Metastore）和SQL解析器(HiveQL)。这种方式下，spark可以读取和写入hive表，利用hive的元数据信息来进行表结构的定义和管理。

具体特点为：

1.1 元数据共享

sparkSQL使用hive的Metastore来获取表的元数据信息，这样可以在SparkSQL直接访问hive表。

1.2 SQL兼容性

sparkSQL支持HiveQL的语法，使得用户可以使用熟悉的Hive查询语句在Spark上执行SQL查询。

1.3 性能优化

Spark可以利用强大的分布式计算能力来加速查询，尤其是在处理大规模数据集时。

2. Hive on Spark

hive on Spark指的是将hive的默认的执行引擎MR换成Spark。这种方式下，Hive查询会由Spark执行而不是MR执行，从而利用Spark强大的计算能力。

具体特点为：

2.1 执行引擎的切换

通过配置Hive使其使用Spark作为执行引擎，可以在不改变现有的Hive查询的情况下，显著提高查询性能。

2.2 配置设置

需要在Hive配置文件设置相关参数。

2.3 兼容性

大多数的Hive查询和UDF（用户自定义函数）都可以在Spark引擎上运行，但某些特定的功能可能需要额外的配置。

3. 主要区别

3.1 角色和职责

Spark on hive，Spark作为主要的计算框架，利用Hive的元数据和SQL解析器。
Hive on Spark，Hive作为主要的查询工具，使用Spark作为底层的执行引擎。

3.2 使用场景

Spark on hive，适用于已经使用Spark进行数据处理，但希望利用Hive的元数据管理和SQL解析语法的场景。
Hive on Spark，适用于已经适用SQL进行数据查询，但希望提高查询性能的场景。

3.3 发起点

Spark on hive，查询是从Spark应用程序发起的，使用SparkSQL或者DataFrame API。
Hive on Spark，查询是从Hive客户端发起，使用HiveQL。

3.4 元数据管理

Spark on hive，Spark通过Hive的MetaStore获取元数据。
Hive on Spark，Hive通过自己的MetaStore来获取元数据。

3.5 任务调度

Spark on hive，Spark直接生成执行计划并调度Spark任务。
Hive on Spark，Hive生成查询计划，然后将其转化为Spark任务并提交给Spark集群。

上一篇：Android事件分发的这些问题你真的搞懂了吗？

下一篇：创建型模式-原型模式

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 05TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 062025最新国内服务器可用docker源仓库地址大全（2025年8月更新）07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 09TRAE Rules 实践：为项目配置 6A 工作流 10阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！