Hive讲课笔记:内部表与外部表

文章目录

  • 一、导言
  • 二、内部表
    • [1.1 什么是内部表](#1.1 什么是内部表)
      • [1.1.1 内部表的定义](#1.1.1 内部表的定义)
      • [1.1.2 内部表的关键特性](#1.1.2 内部表的关键特性)
    • [1.2 创建与操作内部表](#1.2 创建与操作内部表)
      • [1.2.1 创建并查看数据库](#1.2.1 创建并查看数据库)
      • [1.2.2 在park数据库里创建student表](#1.2.2 在park数据库里创建student表)
      • [1.2.3 在student表插入一条记录](#1.2.3 在student表插入一条记录)
      • [1.2.4 通过HDFS WebUI查看数据库与表](#1.2.4 通过HDFS WebUI查看数据库与表)
  • 三、外部表
    • [2.1 什么是外部表](#2.1 什么是外部表)
    • [2.2 创建与操作外部表](#2.2 创建与操作外部表)
      • [2.2.1 在本地创建user.txt文件](#2.2.1 在本地创建user.txt文件)
      • [2.2.2 将文件user.txt上传到HDFS的/data目录](#2.2.2 将文件user.txt上传到HDFS的/data目录)
      • [2.2.3 创建外部表data管理/data目录的数据文件](#2.2.3 创建外部表data管理/data目录的数据文件)
      • [2.2.4 查询外部表data的记录](#2.2.4 查询外部表data的记录)
      • [2.2.5 在MySQL里查看hive元数据信息](#2.2.5 在MySQL里查看hive元数据信息)
  • 四、内部表与外部表的区别
    • [3.1 区别体现在删除表](#3.1 区别体现在删除表)
    • [3.2 通过实验进行验证](#3.2 通过实验进行验证)
      • [3.2.1 删除内部表student](#3.2.1 删除内部表student)
      • [3.2.2 删除外部表data](#3.2.2 删除外部表data)
      • [3.2.3 查看MySQL里hive元数据](#3.2.3 查看MySQL里hive元数据)
  • 五、总结与展望

一、导言

  • 本次课程将深入讲解Hive的内部表和外部表。我们会从定义出发,逐步教授如何在park数据库中创建和操作student内部表,包括数据插入和通过HDFS WebUI查看。接着,我们将探讨外部表,从本地文件user.txt的创建与上传到HDFS,再到在Hive中管理/data目录的数据并进行查询,同时展示MySQL中hive元数据的查看方法。

  • 重点环节,我们将揭示内部表和外部表在删除操作上的区别,并通过课堂实验进行验证。同学们将亲自体验删除内部表student和外部表data的过程,并观察MySQL中hive元数据的变化。

  • 最后,我们将对本课程内容进行总结,并展望Hive表管理的未来应用,旨在帮助同学们全面掌握和有效运用Hive内部表和外部表。

二、内部表

1.1 什么是内部表

1.1.1 内部表的定义

  • Hive内部表是Hive数据仓库中的一种表类型。当在Hive中创建一个内部表时,表的数据和元数据都由Hive进行管理。

1.1.2 内部表的关键特性

  1. 存储位置:Hive内部表的数据默认存储在Hadoop Distributed File System (HDFS) 中的一个指定目录下,这个目录由Hive自动管理。

  2. 元数据管理:Hive内部表的元数据(如表结构、分区信息等)存储在 Hive Metastore 中,这是一个集中式的服务,用于存储和管理所有Hive表的元数据。

  3. 数据生命周期:删除Hive内部表时,不仅会删除表的元数据,还会从HDFS中删除与该表相关联的实际数据文件。

  4. 独立性:由于Hive完全管理内部表的数据和元数据,因此这些表对Hive具有完全的依赖性。如果不再使用Hive,内部表的数据将无法直接通过其他方式访问。

  5. 表操作限制:对Hive内部表进行数据修改或移动等操作可能会受到限制,因为这些操作可能会影响Hive对数据的管理和追踪。

  • 总的来说,Hive内部表是一种适合于数据仓库环境中长期存储和管理数据的表类型,它提供了方便的数据管理和查询功能,但同时也要求用户考虑其对数据持久性和访问方式的需求。

1.2 创建与操作内部表

1.2.1 创建并查看数据库

  • 创建park数据库,执行命令CREATE DATABASE park
  • 在MySQL里查看数据库信息
  • 在HDFS上查看park数据库对应的目录/user/hive/warehouse/park.db

1.2.2 在park数据库里创建student表

  • 使用CREATE TABLE命令创建内部表。
  • 查看表信息。

1.2.3 在student表插入一条记录

  • 使用INSERT INTO命令插入数据。

1.2.4 通过HDFS WebUI查看数据库与表

  • 查看HDFS中数据库与表的存储情况。

三、外部表

2.1 什么是外部表

  • 通过CREATE EXTERNAL TABLE...LOCATION...命令创建的表称为外部表。
  • 对应HDFS某一个目录下的数据文件。

2.2 创建与操作外部表

2.2.1 在本地创建user.txt文件

  • 准备外部表的数据文件。

2.2.2 将文件user.txt上传到HDFS的/data目录

  • 通过HDFS Explorer查看上传的文件。

2.2.3 创建外部表data管理/data目录的数据文件

  • 使用CREATE EXTERNAL TABLE命令创建外部表。

2.2.4 查询外部表data的记录

  • 使用SELECT命令查询外部表的记录。

2.2.5 在MySQL里查看hive元数据信息

  • 查询Hive元数据中外部表的信息。

四、内部表与外部表的区别

3.1 区别体现在删除表

  • 内部表删除后,HDFS对应目录被删除。
  • 外部表删除后,HDFS对应目录不被删除。

3.2 通过实验进行验证

3.2.1 删除内部表student

  • 使用DROP TABLE命令删除内部表。

3.2.2 删除外部表data

  • 使用DROP TABLE命令删除外部表。

3.2.3 查看MySQL里hive元数据

  • 查询Hive元数据中表的状态。

五、总结与展望

  • 总结内部表与外部表的特点与操作步骤。
  • 展望在实际应用中的使用场景与注意事项。
相关推荐
大鳥14 小时前
Hive on Spark SQL 性能优化权威指南
hive·sql·spark
無森~15 小时前
Hive输出表信息中文乱码解决方案
数据仓库·hive·hadoop
B站计算机毕业设计超人1 天前
计算机毕业设计Python+百度千问大模型微博舆情分析预测 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hive·hadoop·python·毕业设计·知识图谱·课程设计
王九思2 天前
大数据查询工具Hive介绍
大数据·hive·hadoop
王九思2 天前
Hive Hook 机制
数据仓库·hive·hadoop
lipWOFb2 天前
扩展卡尔曼滤波soc估算 基于EKF算法的锂电池SOC 卡尔曼滤波估计电池soc ,simul...
hive
走遍西兰花.jpg2 天前
hive如何使用python脚本
数据仓库·hive·hadoop·python
德彪稳坐倒骑驴2 天前
Hive电商分析项目 Azkaban自动化运行
hive·hadoop·自动化
yumgpkpm3 天前
Cloudera CDP/CMP华为鲲鹏版下 Spark应用加速,华为昇腾芯片的实用配置过程
hive·hadoop·elasticsearch·flink·kafka·hbase·cloudera
m0_748252383 天前
ervlet 编写过滤器
数据仓库·hive·hadoop