Hive-基础介绍

简介

Apache Hive是一款数据仓库系统

功能

  1. 可以将存储在Hadoop(HDFS)中的数据映射为一张数据库表。
  2. 核心是将HQL语句转化为MapRece程序,然后提交到Hadoop执行。

组件

  1. 用户接口:CLI(shell命令行)、WebGUI、Thrift Server
  2. 元数据存储(Metastore):将表和HDFS文件的对应关系通常存储在mysql
  3. Hive Driver驱动程序(核心):语法解析、语法编译、优化器、执行器
  4. 执行引擎:MapReduce、Tez、Spark等

数据模型

Hive也有类似于关系型数据库的模型概念:

**Partitions:**分区,数据分区后存储在以分区字段命名的文件中。

**Buckets:**分桶,可以优化join查询和方便抽样查询

与Mysql区别

相关推荐
武子康13 小时前
大数据-264 实时数仓-MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
大数据·hadoop·后端
武子康14 小时前
大数据-265 实时数仓-Canal MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
大数据·hadoop·后端
晓纪同学14 小时前
WPF-03 第一个WPF程序
大数据·hadoop·wpf
2501_9333295520 小时前
技术深度剖析:Infoseek 字节探索舆情处置系统的全链路架构与核心实现
大数据·数据仓库·人工智能·自然语言处理·架构
xiaoyaohou111 天前
024、大数据技术栈概览:Hadoop、Spark与Flink
大数据·hadoop·spark
虚幻如影1 天前
Hive 中“STRING类型无需显式指定长度
数据仓库·hive·hadoop
荒川之神1 天前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle
RestCloud1 天前
2026年企业级ETL工具选型指南:从开源DataX到商业化ETLCloud的演进
数据仓库·开源·etl·datax·数据处理·数据集成·数据传输
荒川之神1 天前
Oracle 数据仓库星座模型(Galaxy Model)设计原则
数据库·数据仓库·oracle
瀚高PG实验室2 天前
ETL中,分区表子表未及时收集统计信息,导致sql执行耗时很长
数据库·数据仓库·sql·etl·瀚高数据库