Hive简介 | 体系结构

Hive简介

Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具。

在这个世界上,会写SQL的人远远大于会写java代码的人,所以假如可以将MR通过sql实现,这个将是一个巨大的市场,FaceBook就这么干。(脸书)

FaceBook --> Meta (元宇宙) --> 社交网站(校内网)

在大数据中,发展趋势:所有的技术全部都变为SQL。

1、Hive是一个数据仓库工具

2、可以将数据加载到表中,编写sql进行分析

3、底层依赖Hadoop,所以每一次都需要启动hadoop(hdfs以及yarn)

4、Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ

5、Hive不是数据库,而是一个将MR包了一层壳儿。类似于一个中介。

Hive天然的就是当做数据仓库使用的。什么是数据仓库?

数据仓库:数据的仓库,一般只要能存数据的软件都可以当做数据仓库。

比如:开了一个超市,必须有一个仓库,这个仓库是不是可大可小。以前数据量特别小的时候,一般都使用Oracle当做数据仓库,现在企业中一般都使用大数据技术中 的Hive或者跟Hive类似的技术当做数据仓库。

普通的仓库:一般也是分类的,比如食品区、衣服区、电子产品区

数据仓库:也是需要搭建的(分层),方便使用者从仓库中快速的获取想要的数据。仓库搭建的好不好,就叫做建模。

体系结构

注意:

  • 包含*的全表查询,比如select * from table 不会生成MapRedcue任务

  • 包含*的limit查询,比如select * from table limit 3 不会生成MapRedcue任务

相关推荐
倔强的石头1066 小时前
【Linux指南】基础IO系列(八):实战衔接 —— 给微型 Shell 添加完整重定向功能
linux·运维·服务器
try2find6 小时前
打印ascii码报错问题
java·linux·前端
Ujimatsu7 小时前
虚拟机安装Ubuntu 26.04.x及其常用软件(2026.4)
linux·运维·ubuntu
一直会游泳的小猫9 小时前
homebrew
linux·mac·工具·包管理
寒秋花开曾相惜9 小时前
(学习笔记)4.2 逻辑设计和硬件控制语言HCL(4.2.1 逻辑门&4.2.2 组合电路和HCL布尔表达式)
linux·网络·数据结构·笔记·学习·fpga开发
狂奔的sherry10 小时前
一次由 mount 引发的 Linux 文件系统“错觉”
linux·运维·服务器
小黑要努力10 小时前
智能音箱遇到的问题(一)
linux·运维·git
ch3nyuyu10 小时前
静态库和动态库的制作
linux·运维·开发语言
折哥的程序人生 · 物流技术专研10 小时前
效率翻倍:出版社多库区复合型 ABC 仓储拣选体系全解(含直发/越库/箱式立库/托盘立库)
大数据
Elastic 中国社区官方博客10 小时前
Elasticsearch:智能搜索 - AI builder 及 skills
大数据·人工智能·elasticsearch·搜索引擎·ai·信息可视化·全文检索