Hive-基础介绍

菜鸟翻身做主人2024-07-29 22:25

简介

Apache Hive是一款数据仓库系统

功能

可以将存储在Hadoop(HDFS)中的数据映射为一张数据库表。
核心是将HQL语句转化为MapRece程序，然后提交到Hadoop执行。

组件

用户接口：CLI(shell命令行)、WebGUI、Thrift Server
元数据存储(Metastore)：将表和HDFS文件的对应关系通常存储在mysql
Hive Driver驱动程序(核心)：语法解析、语法编译、优化器、执行器
执行引擎：MapReduce、Tez、Spark等

数据模型

Hive也有类似于关系型数据库的模型概念：

库：

表：

**Partitions：**分区，数据分区后存储在以分区字段命名的文件中。

**Buckets：**分桶，可以优化join查询和方便抽样查询

与Mysql区别

上一篇：大数据指标体系建设方案

下一篇：【React】组件：全面解析现代前端开发的基石

热门推荐

01GitHub 镜像站点 022026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？03AI科技热点日报 | 2026年07月01日 042026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 052026 年 AI 大模型 & AI 编程工具实战全总结 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07【AI】2026 年具身智能模型和世界模型总结 082026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）092026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？