Spark和Hive的区别

1 Hive
Hive 是基于 Hadoop 的数据仓库工具,同时又是查询引擎, Spark SQL 只是取代的 Hive 的查询引擎这一部分,企业可以使用Hive+Spark SQL 进行开发。
Hive 的主要工作如下:
把HQL 翻译长 map-reduce 的代码,并且有可能产生很多 mapreduce 的 job
把生产的Mapreduce 代码及相关资源打包成 jar 并发布到 Hadoop 的集群当中并进行运行
Hive默认情况下用 derby 存储元数据,所以在生产环境下一般会采用多用户的数据库进行元数据的存储,并可以读写分离和备份,一般使用主节点写,从节点读,一般使用MySQL 。

2 Spark
Spark SQL处理一切存储介质和各种格式的数据 ( 可以扩展 sparksql 来读取更多类型的数据 ) ;
Spark SQL把数据仓库的计算速度推向了新的高度( Tungsten 成熟之后会更厉害);
Spark SQL推出的 Dataframe 可以让数据仓库直接使用机器学习,图计算等复杂算法;
Hive+Spark SQL+DataFrame 使用:
Hive:负责廉价的数据仓库存储
Spark Sql:负责高速的计算
DataFrame:负责复杂的数据挖掘

3 Hive on Spark Spark Sql 的区别
Hive on Spark大体与 Spark SQL 结构类似,只是 SQL 解析器不同,但是计算引擎都是 Spark 。

4 Hive on Mapreduce Spark SQL 使用场景
Hive on Mapreduce 场景
Hive 的出现可以让那些精通 SQL 技能、但是不熟悉 MapReduce 、编程能力较弱与不擅长 Java 语言的用户能够在HDFS 大规模数据集上很方便地利用 SQL 语言查询、汇总、分析数据,毕竟精通 SQL 语言的人要比精通Java 语言的多得多。 Hive 适合处理离线非实时数据
Spark SQL 场景
Spark 既可以运行本地 local 模式,也可以以 Standalone 、 cluster 等多种模式运行在 Yarn 、 Mesos 上,还可以运行在云端例如EC2 。此外, Spark 的数据来源非常广泛,可以处理来自 HDFS 、 HBase 、Hive、 Cassandra 、 Tachyon 上的各种类型的数据。
实时性要求或者速度要求较高的场所

5 Hive on Mapreduce Spark SQL 性能对比
Spark SQL 和 Hive on Spark 时间差不多,但都比 Hive on mapreduce 快很多,官方数据认为 Spark 会被传统mapreduce快 10-100 倍。

相关推荐
J2虾虾20 分钟前
数据分析师课程
大数据
大力财经1 小时前
纳米漫剧流水线接入满血版Seedance 2.0 实现工业级AI漫剧确定性交付
大数据·人工智能
AI周红伟2 小时前
OpenClaw是什么?OpenClaw能做什么?OpenClaw详细介绍及保姆级部署教程-周红伟
大数据·运维·服务器·人工智能·微信·openclaw
Elastic 中国社区官方博客2 小时前
当 TSDS 遇到 ILM:设计不会拒绝延迟数据的时间序列数据流
大数据·运维·数据库·elasticsearch·搜索引擎·logstash
Omics Pro2 小时前
虚拟细胞:开启HIV/AIDS治疗新纪元的关键?
大数据·数据库·人工智能·深度学习·算法·机器学习·计算机视觉
沐风___2 小时前
Claude Code 权限模式完全指南:Auto、Bypass、Ask 三模式深度解析
大数据·elasticsearch·搜索引擎
qq_5470261793 小时前
LangChain 工具调用(Tool Calling)
java·大数据·langchain
黎阳之光6 小时前
黎阳之光:数智科技破局湖库富营养化,筑造水生态治理新标杆
大数据·人工智能·科技·安全·数字孪生
算法即正义6 小时前
知识竞赛在党建教育中的创新应用:激活学习动能,赋能组织活力
大数据·人工智能
Elastic 中国社区官方博客7 小时前
使用 Elastic Workflows 监控 Kibana 仪表板视图
大数据·运维·数据库·elasticsearch·搜索引擎·全文检索·kibana