hive 基础知识

超爱慢2023-09-13 23:25

一 hive 是什么

在本节前我们需要明确 hive 是什么

上面两个代码块，左边的是 mapreduce 的代码块，右边的是hive 的代码块

很容易看出来，右边的 hive 写起来要更容易更快些，而执行效率，右边的 hive 只比左边多一个翻译的过程，就是将写的 HQL语句翻译成 mapreduce 去执行

简单来说 hive 就是一个中间件，可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行，让我们不必再去写 mapreduce 的代码，提升我们的开发效率

二 Hive的优势和特点

提供了一个简单的优化模型
HQL类SQL语法，简化MR开发
支持在不同的计算框架上运行
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
常用于ETL操作和BI 稳定可靠（真实生产环境）的批处理
有庞大活跃的社区

三 Hive的发展里程碑和主流版本

Hive发展历史及版本

07年8月 -- 始于Facebook
13年5月 -- 0.11 Stinger Phase 1 ORC HiveServer2
13年10月 -- 0.12.0 Stinger Phase 2 - ORC improvement
14年4月 -- Hive 0.13.0 as Stinger Phase 3
14年11月 -- Hive 0.14.0
15年2月 -- Hive 1.0.0
15年5月 -- Hive 1.2.0 （1.2.1 本系列课实验重点版本 )
16年2月 -- Hive 2.0.0 (添加 HPLSQL, LLAP)
16年6月 -- Hive 2.1.0

四 Hive元数据管理

记录数据仓库中模型的定义、各层级间的映射关系
存储在关系数据库中
- 默认Derby, 轻量级内嵌SQL数据库
  - Derby非常适合测试和演示
  - 存储在.metastore_db目录中
- 实际生产一般存储在MySQL中
  - 修改配置文件hive-site.xml
HCatalog
- 将Hive元数据共享给其他应用程序

五 Hive环境搭建

环境准备
- 安装jdk、hadoop、mysql（元数据管理使用）
主要步骤
- 下载并解压
- 配置环境变量
- 修改配置文件
- 配置hive元数据管理
- 启动验证

安装 hive 查看

在 linux 虚拟机上安装配置 hive_超爱慢的博客-CSDN博客

六 hive 架构

七 Hive操作-命令行模式

有两种客户端工具：Beeline和Hive命令行（CLI）
有两种模式：命令行模式和交互模式
命令行模式

八 Hive操作-窗口交互模式

九 Hive操作-客户端交互模式

检查Hive服务是否已经正常启动
使用Hive交互方式（输入hive即可）
使用beeline
- 需启动hiveserver2服务
  - nohup hive --service metastore &（非必须）
  - nohup hive --service hiveserver2 &
- 输入beeline进入beeline交互模式
  - !connect jdbc:hive2://hadoop101:10000

上一篇：ByteV联合“智农”打造--数字孪生大棚可视化

下一篇：Linux内核4.14版本——drm框架分析(14)——Atomic KMS 架构(struct drm_atomic_state)

热门推荐

012026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03GitHub 镜像站点 04AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 052026 年 AI 大模型 & AI 编程工具实战全总结 06AI科技热点日报 | 2026年07月01日 07【AI】2026 年具身智能模型和世界模型总结 082026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）09Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析 102026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片