Hive基础简介

Hive基础简介

一、为啥有Hive

MySQL:

处理不了大数据 & SQL语句简单--->

Hadoop:

HDFS【存储 & 需要Java能力和MR能力】+ MapReduce(MR)【处理数据 & 需要Java能力和MR能力】--->

HiveSQL:

分析处理大数据 & 语句简单

二、Hive基础考点概念

1、Hive是一个用于分析结构化数据和半结构化数据

数据仓库系统。它建立在Hadoop之上。

2、它是一个类似SQL的查询工具,用于查询存储在HDFS和其他与Hadoop集成的文件系统中的数据。

3、Hive提供读取、写入和管理驻留在分布式存储中的大型数据集的功能。

4、它运行名为HQL(Hive查询语言)的类似SQL的查询,该HQL在内部默认自动转换为MapReduce , 可以更改为其他工具,例如Tez或Spark。

5、它是离线批处理

6、无需学习Java和Hadoop。

7、可扩展性、快、灵活

8、支持从序列化文件、文本文件、avro文件、orc文件、rc文件、Hbase表读取数据分析

9、Hive的元数据存在RDBMS里(例如MySQL),所以安装Hive之前要先安装RDBMS

10、Hive支持压缩功能

11、Hive支持Join联查功能

12、Hive支持索引来精准查询

13、Hive支持用户自定义函数可以自己写Java代码编写

三、Hive 适用、不适用情况
非适用 适用
关系型数据库 非关系型数据库
用于交易、事务处理 用于大批量分析
实时更新查询 离线批处理
低延迟、低吞吐量 高延迟、高吞吐量
四、Hive架构
相关推荐
云器科技5 小时前
无需CDP:基于现有数据仓库构建高效用户画像系统
数据仓库·湖仓一体·lakehouse·无需 cdp
xerthwis10 小时前
HDFS:那座正在云化与解构的“古老高墙”
大数据·数据仓库·人工智能·hdfs·数据库开发·数据库架构
xerthwis1 天前
Hadoop:大数据世界的“古老基石”与“沉默的共生者”
大数据·人工智能·hadoop
yumgpkpm1 天前
Cloudera CDH5|CDH6|CDP7.1.7|CDP7.3|CMP 7.3的产品优势分析(在华为鲲鹏 ARM 麒麟KylinOS、统信UOS)
大数据·人工智能·hadoop·深度学习·spark·transformer·cloudera
ghgxm5201 天前
EXCEL使用VBA代码实现按条件查询数据库--简单实用
开发语言·数据仓库·笔记·excel·数据库开发
yumgpkpm1 天前
Hadoop如何用Flink支持实时数据分析需求
大数据·hadoop·分布式·hdfs·flink·kafka·cloudera
喻师傅2 天前
Hive 中 NULL 值在逻辑判断中的“陷阱”(踩坑复盘)
数据仓库·hive·hadoop
涤生大数据2 天前
放弃Canal后,我们用Flink CDC实现了99.99%的数据一致性
大数据·数据仓库·flink·大数据开发·flink cdc·数据开发·实时数据
jinxinyuuuus3 天前
订阅指挥中心:数据可移植性、Schema设计与用户数据主权
数据仓库·人工智能
老徐电商数据笔记3 天前
技术复盘第四篇:Kimball维度建模在电商场景的实战应用
大数据·数据仓库·技术面试