Hive简介 | 体系结构

Hive简介

Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具。

在这个世界上,会写SQL的人远远大于会写java代码的人,所以假如可以将MR通过sql实现,这个将是一个巨大的市场,FaceBook就这么干。(脸书)

FaceBook --> Meta (元宇宙) --> 社交网站(校内网)

在大数据中,发展趋势:所有的技术全部都变为SQL。

1、Hive是一个数据仓库工具

2、可以将数据加载到表中,编写sql进行分析

3、底层依赖Hadoop,所以每一次都需要启动hadoop(hdfs以及yarn)

4、Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ

5、Hive不是数据库,而是一个将MR包了一层壳儿。类似于一个中介。

Hive天然的就是当做数据仓库使用的。什么是数据仓库?

数据仓库:数据的仓库,一般只要能存数据的软件都可以当做数据仓库。

比如:开了一个超市,必须有一个仓库,这个仓库是不是可大可小。以前数据量特别小的时候,一般都使用Oracle当做数据仓库,现在企业中一般都使用大数据技术中 的Hive或者跟Hive类似的技术当做数据仓库。

普通的仓库:一般也是分类的,比如食品区、衣服区、电子产品区

数据仓库:也是需要搭建的(分层),方便使用者从仓库中快速的获取想要的数据。仓库搭建的好不好,就叫做建模。

体系结构

注意:

  • 包含*的全表查询,比如select * from table 不会生成MapRedcue任务

  • 包含*的limit查询,比如select * from table limit 3 不会生成MapRedcue任务

相关推荐
说私域6 小时前
基于开源AI大模型与S2B2C模式的线下服务型门店增长策略研究——以AI智能名片与小程序源码技术为核心
大数据·人工智能·小程序·开源
TDD_06286 小时前
【运维】Centos硬盘满导致开机时处于加载状态无法开机解决办法
linux·运维·经验分享·centos
x66ccff6 小时前
vLLM 启动 GGUF 模型踩坑记:从报错到 100% GPU 占用的原因解析
linux
V_HY147627 小时前
AI碰一碰发视频获客工具,系统开发逻辑详细解析
大数据·人工智能·新媒体运营·流量运营
遇码7 小时前
单机快速部署开源、免费的分布式任务调度系统——DolphinScheduler
大数据·运维·分布式·开源·定时任务·dolphin·scheduler
William.csj7 小时前
Linux——开发板显示器显示不出来,vscode远程登录不进去,内存满了的解决办法
linux·vscode
KeithTsui8 小时前
GCC RISCV 后端 -- 控制流(Control Flow)的一些理解
linux·c语言·开发语言·c++·算法
森叶8 小时前
linux如何与windows进行共享文件夹开发,不用来回用git进行拉来拉去,这个对于swoole开发者来说特别重要
linux·git·swoole
一个天蝎座 白勺 程序猿8 小时前
大数据(4.2)Hive核心操作实战指南:表创建、数据加载与分区/分桶设计深度解析
大数据·hive·hadoop
liulilittle8 小时前
Linux 高级路由策略控制配置:两个不同路由子网间通信
linux·网络·智能路由器