Hive-基础介绍

简介

Apache Hive是一款数据仓库系统

功能

  1. 可以将存储在Hadoop(HDFS)中的数据映射为一张数据库表。
  2. 核心是将HQL语句转化为MapRece程序,然后提交到Hadoop执行。

组件

  1. 用户接口:CLI(shell命令行)、WebGUI、Thrift Server
  2. 元数据存储(Metastore):将表和HDFS文件的对应关系通常存储在mysql
  3. Hive Driver驱动程序(核心):语法解析、语法编译、优化器、执行器
  4. 执行引擎:MapReduce、Tez、Spark等

数据模型

Hive也有类似于关系型数据库的模型概念:

**Partitions:**分区,数据分区后存储在以分区字段命名的文件中。

**Buckets:**分桶,可以优化join查询和方便抽样查询

与Mysql区别

相关推荐
qiuyepiaoling3 小时前
数仓设计基础
数据仓库
兔子宇航员03014 小时前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
段一凡-华北理工大学7 小时前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
Irene19919 小时前
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
hive·sql·oracle
段一凡-华北理工大学9 小时前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
兔子宇航员03019 小时前
HiveSQL 中 NULL 与空字符串的区别与注意事项
数据库·数据仓库·sql
无关868810 小时前
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程
大数据·hive·spark
小欣加油1 天前
Hadoop开发环境搭建
大数据·数据库·hadoop
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章01:Hadoop与工业4.0深度融合
大数据·hadoop·学习·架构·知识图谱·高炉炼铁·工业智能体
宽海智能仓储物流1 天前
从状态检查到数据备份:仓储PLC控制器保养周期与实操清单
大数据·数据仓库·自动化