Hive-基础介绍

简介

Apache Hive是一款数据仓库系统

功能

  1. 可以将存储在Hadoop(HDFS)中的数据映射为一张数据库表。
  2. 核心是将HQL语句转化为MapRece程序,然后提交到Hadoop执行。

组件

  1. 用户接口:CLI(shell命令行)、WebGUI、Thrift Server
  2. 元数据存储(Metastore):将表和HDFS文件的对应关系通常存储在mysql
  3. Hive Driver驱动程序(核心):语法解析、语法编译、优化器、执行器
  4. 执行引擎:MapReduce、Tez、Spark等

数据模型

Hive也有类似于关系型数据库的模型概念:

**Partitions:**分区,数据分区后存储在以分区字段命名的文件中。

**Buckets:**分桶,可以优化join查询和方便抽样查询

与Mysql区别

相关推荐
Leo.yuan20 小时前
数据清洗(ETL/ELT)原理与工具选择指南:企业数字化转型的核心引擎
大数据·数据仓库·数据挖掘·数据分析·etl
isNotNullX1 天前
实时数仓和离线数仓还分不清楚?看完就懂了
大数据·数据库·数据仓库·人工智能·数据分析
熊猫钓鱼>_>1 天前
Hadoop 用户入门指南:驾驭大数据的力量
大数据·hadoop·分布式
William一直在路上1 天前
SpringBoot 拦截器和过滤器的区别
hive·spring boot·后端
Leo.yuan1 天前
数据分析师如何构建自己的底层逻辑?
大数据·数据仓库·人工智能·数据挖掘·数据分析
抛砖者1 天前
hive/spark sql中unix_timestamp 函数的坑以及时间戳相关的转换
hive·sql·spark
落霞的思绪1 天前
使用云虚拟机搭建hadoop集群环境
大数据·hadoop·分布式
无级程序员2 天前
大数据平台之ranger与ldap集成,同步用户和组
大数据·hadoop
梦想画家2 天前
数据仓库:企业数据管理的核心枢纽
数据仓库
梦想画家4 天前
数据仓库中的代理键:概念、应用与实践指南
数据仓库·代理键·缓慢维度变化