【大数据学习 | Spark】Spark on hive与 hive on Spark的区别

1. Spark on hive

Spark on hive指的是使用Hive的元数据(Metastore)和SQL解析器(HiveQL)。这种方式下,spark可以读取和写入hive表,利用hive的元数据信息来进行表结构的定义和管理。

具体特点为:

1.1 元数据共享

sparkSQL使用hive的Metastore来获取表的元数据信息,这样可以在SparkSQL直接访问hive表。

1.2 SQL兼容性

sparkSQL支持HiveQL的语法,使得用户可以使用熟悉的Hive查询语句在Spark上执行SQL查询。

1.3 性能优化

Spark可以利用强大的分布式计算能力来加速查询,尤其是在处理大规模数据集时。

2. Hive on Spark

hive on Spark指的是将hive的默认的执行引擎MR换成Spark。这种方式下,Hive查询会由Spark执行而不是MR执行,从而利用Spark强大的计算能力。

具体特点为:

2.1 执行引擎的切换

通过配置Hive使其使用Spark作为执行引擎,可以在不改变现有的Hive查询的情况下,显著提高查询性能。

2.2 配置设置

需要在Hive配置文件设置相关参数。

2.3 兼容性

大多数的Hive查询和UDF(用户自定义函数)都可以在Spark引擎上运行,但某些特定的功能可能需要额外的配置。

3. 主要区别

3.1 角色和职责

  • Spark on hive,Spark作为主要的计算框架,利用Hive的元数据和SQL解析器。
  • Hive on Spark,Hive作为主要的查询工具,使用Spark作为底层的执行引擎。

3.2 使用场景

  • Spark on hive,适用于已经使用Spark进行数据处理,但希望利用Hive的元数据管理和SQL解析语法的场景。
  • Hive on Spark,适用于已经适用SQL进行数据查询,但希望提高查询性能的场景。

3.3 发起点

  • Spark on hive,查询是从Spark应用程序发起的,使用SparkSQL或者DataFrame API。
  • Hive on Spark,查询是从Hive客户端发起,使用HiveQL。

3.4 元数据管理

  • Spark on hive,Spark通过Hive的MetaStore获取元数据。
  • Hive on Spark,Hive通过自己的MetaStore来获取元数据。

3.5 任务调度

  • Spark on hive,Spark直接生成执行计划并调度Spark任务。
  • Hive on Spark,Hive生成查询计划,然后将其转化为Spark任务并提交给Spark集群。
相关推荐
穿过锁扣的风2 分钟前
从原理到实战:决策树三大算法(ID3、C4.5、CART)深度解析
大数据·深度学习·神经网络·机器学习
2501_947908203 分钟前
2026年如何打造理想的沉浸式声学空间,选择合适的吸顶音响至关重要
大数据·人工智能
天远云服7 分钟前
天远车辆过户查询API微服务实战:用Go语言构建高性能车况溯源系统
大数据·微服务·架构·golang
发哥来了8 分钟前
主流Sora2相关商用服务公司可靠性对比
大数据·人工智能
Francek Chen9 分钟前
【大数据基础】实验1:熟悉常用的Linux操作和Hadoop操作
大数据·linux·hadoop·hdfs
Elastic 中国社区官方博客19 分钟前
Elasticsearch:使用 Base64 编码字符串加速向量摄取
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
yhdata28 分钟前
医疗零部件领域新宠:超声波精密清洗系统,市场规模近29.14亿元
大数据·人工智能
李少兄1 小时前
MySQL 中为时间字段设置默认当前时间
android·数据库·mysql
数智顾问1 小时前
(229页PPT)DG1888某大型制药集团企业数字化转型SAP蓝图设计解决方案(附下载方式)
大数据
码海踏浪1 小时前
从简单到专业在OceanBase中查看SQL是否走索引
数据库·sql·oceanbase