hive 基础知识

一 hive 是什么

在本节前我们需要明确 hive 是什么

上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块

很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译的过程,就是将写的 HQL语句 翻译成 mapreduce 去执行

简单来说 hive 就是一个中间件,可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行,让我们不必再去写 mapreduce 的代码,提升我们的开发效率

二 Hive的优势和特点

  • 提供了一个简单的优化模型
  • HQL类SQL语法,简化MR开发
  • 支持在不同的计算框架上运行
  • 支持在HDFS和HBase上临时查询数据
  • 支持用户自定义函数、格式
  • 常用于ETL操作和BI 稳定可靠(真实生产环境)的批处理
  • 有庞大活跃的社区

三 Hive的发展里程碑和主流版本

Hive发展历史及版本

  • 07年8月 -- 始于Facebook
  • 13年5月 -- 0.11 Stinger Phase 1 ORC HiveServer2
  • 13年10月 -- 0.12.0 Stinger Phase 2 - ORC improvement
  • 14年4月 -- Hive 0.13.0 as Stinger Phase 3
  • 14年11月 -- Hive 0.14.0
  • 15年2月 -- Hive 1.0.0
  • 15年5月 -- Hive 1.2.0 (1.2.1 本系列课实验重点版本 )
  • 16年2月 -- Hive 2.0.0 (添加 HPLSQL, LLAP)
  • 16年6月 -- Hive 2.1.0

四 Hive元数据管理

  • 记录数据仓库中模型的定义、各层级间的映射关系
  • 存储在关系数据库中
    • 默认Derby, 轻量级内嵌SQL数据库
      • Derby非常适合测试和演示
      • 存储在.metastore_db目录中
    • 实际生产一般存储在MySQL中
      • 修改配置文件hive-site.xml
  • HCatalog
    • 将Hive元数据共享给其他应用程序

五 Hive环境搭建

  • 环境准备
    • 安装jdk、hadoop、mysql(元数据管理使用)
  • 主要步骤
    • 下载并解压
    • 配置环境变量
    • 修改配置文件
    • 配置hive元数据管理
    • 启动验证

安装 hive 查看

在 linux 虚拟机上安装配置 hive_超爱慢的博客-CSDN博客

六 hive 架构

七 Hive操作-命令行模式

  • 有两种客户端工具:Beeline和Hive命令行(CLI)
  • 有两种模式:命令行模式和交互模式
  • 命令行模式

八 Hive操作-窗口交互模式

九 Hive操作-客户端交互模式

  • 检查Hive服务是否已经正常启动
  • 使用Hive交互方式(输入hive即可)
  • 使用beeline
    • 需启动hiveserver2服务
      • nohup hive --service metastore &(非必须)
      • nohup hive --service hiveserver2 &
    • 输入beeline进入beeline交互模式
      • !connect jdbc:hive2://hadoop101:10000
相关推荐
TPBoreas2 小时前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
Nefu_lyh2 天前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
阿 才2 天前
跟文件系统(busybox)的构建
大数据·hadoop·分布式
KANGBboy2 天前
hive UDF函数
数据仓库·hive·hadoop
暴躁小师兄数据学院3 天前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
王小王-1233 天前
基于 Hadoop + Flask 的电动汽车数据分析与可视化系统设计与实现
hadoop·数据分析·flask·电动汽车·新能源汽车数据分析·新能源汽车销量分析·新能源汽车销售分析
云器科技3 天前
螳螂科技:从组装到统一,如何用云器 Lakehouse 完美替代“MC+DW+ADB”三件套?
数据库·数据仓库·人工智能
王小王-1233 天前
基于机器学习与Hadoop的心脏病数据分析与可视化设计与实现
hadoop·机器学习·数据分析·心脏病预测
知识分享小能手3 天前
Hadoop学习教程,从入门到精通, Hadoop 3.x 高可用集群 — 知识点详解(6)
大数据·hadoop·学习
王小王-1234 天前
基于商品评价的评论情感分析与可视化系统
hive·情感分析·商品评价分析·主题分析·商品评论分析