Hive基础简介

Hive基础简介

一、为啥有Hive

MySQL:

处理不了大数据 & SQL语句简单--->

Hadoop:

HDFS【存储 & 需要Java能力和MR能力】+ MapReduce(MR)【处理数据 & 需要Java能力和MR能力】--->

HiveSQL:

分析处理大数据 & 语句简单

二、Hive基础考点概念

1、Hive是一个用于分析结构化数据和半结构化数据

数据仓库系统。它建立在Hadoop之上。

2、它是一个类似SQL的查询工具,用于查询存储在HDFS和其他与Hadoop集成的文件系统中的数据。

3、Hive提供读取、写入和管理驻留在分布式存储中的大型数据集的功能。

4、它运行名为HQL(Hive查询语言)的类似SQL的查询,该HQL在内部默认自动转换为MapReduce , 可以更改为其他工具,例如Tez或Spark。

5、它是离线批处理

6、无需学习Java和Hadoop。

7、可扩展性、快、灵活

8、支持从序列化文件、文本文件、avro文件、orc文件、rc文件、Hbase表读取数据分析

9、Hive的元数据存在RDBMS里(例如MySQL),所以安装Hive之前要先安装RDBMS

10、Hive支持压缩功能

11、Hive支持Join联查功能

12、Hive支持索引来精准查询

13、Hive支持用户自定义函数可以自己写Java代码编写

三、Hive 适用、不适用情况
非适用 适用
关系型数据库 非关系型数据库
用于交易、事务处理 用于大批量分析
实时更新查询 离线批处理
低延迟、低吞吐量 高延迟、高吞吐量
四、Hive架构
相关推荐
孟意昶21 小时前
Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui
大数据·数据仓库·sql·ui·spark·etl
大叔_爱编程1 天前
基于Hadoop的美妆产品网络评价的数据采集与分析-django+spider
大数据·hadoop·django·毕业设计·源码·课程设计·美妆产品
Q26433650231 天前
【有源码】基于Hadoop+Spark的豆瓣电影数据分析与可视化系统-基于大数据的电影评分趋势分析与可视化系统
大数据·hadoop·python·数据分析·spark·毕业设计·课程设计
IT毕设梦工厂1 天前
大数据毕业设计选题推荐-基于大数据的全球经济指标数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
全栈派森1 天前
BI数据开发全攻略:数据仓库、模型搭建与指标处理
数据仓库·python·程序人生
AI大数据智能洞察1 天前
大数据领域数据仓库的备份恢复方案优化
大数据·数据仓库·ai
秦JaccLink1 天前
Hive语句执行顺序详解
数据仓库·hive·hadoop
AI应用开发实战派1 天前
大数据领域数据仓库的自动化测试实践
大数据·数据仓库·ai
AI算力网络与通信1 天前
大数据领域 Hive 数据仓库搭建实战
大数据·数据仓库·hive·ai
Leo.yuan1 天前
ODS 是什么?一文搞懂 ODS 与数据仓库区别
大数据·数据仓库·数据挖掘·数据分析·spark