Hive 的数据存储单元结构

按照数据的粒度顺序,数据存储单元数据被组织为:

  • 数据库 Databases

  • 数据表 Tables

  • 分区 Partitions

  • 桶或簇 Buckets (or Clusters)

数据库 Databases

与传统的关系型数据库一样,数据库是一个名称空间,作用是避免表、视图、分区、列等的命名冲突。数据库还可用于为用户或用户组实施安全性。

数据表 Tables

具有相同模式的同质数据单元。下边是一个 page_views 表的示例,其中每一行可以由以下列(模式,schema)组成:

  • timestamp --- 它是 INT 类型,对应于查看页面时的UNIX时间戳
  • userid --- 它是 BIGINT 类型,用于标识查看页面的用户
  • page_url --- 它是捕获页面位置的字符串类型 STRING
  • referer_url --- 它是一个字符串 STRING,用于捕获用户到达当前页的位置
  • IP --- 它是一种字符串类型 STRING,用于捕获发出页面请求的 IP 地址

分区 Partitions

每个表可以有一个或多个分区键,用于确定数据的存储方式。分区除了作为存储单元外,还允许用户有效地识别满足指定条件的行;例如,STRING 类型的 date_partition 分区和 STRING 类型的 country_partition 分区。

分区键的每个唯一值定义了表的一个分区。例如,"2009-12-23" 中的所有 "US" 数据都是 page_views 表的一个分区。因此,如果仅对 2009-12-23 的 "US" 数据运行分析,则只能对表的相关分区运行该查询,从而显著加快分析速度。

但是,请注意,仅仅因为一个分区被命名为 2009-12-23 并不意味着它包含所有或仅包含该日期的数据;分区以日期命名是为了方便;保证分区名称和数据内容之间的关系是用户的工作。

分区列(Partition columns)是虚拟列它们不是数据本身的一部分,而是在加载时派生的。

桶或簇 Buckets (or Clusters)

每个分区中的数据又可以基于表的某一列的散列函数的值被划分为桶 。例如, page_views 表可能由 userid 绑定,userid 是 page_views 表的除 partitions 列以外的列之一。这些可用于有效地对数据进行采样。

相关推荐
Gain_chance1 天前
32-学习笔记尚硅谷数仓搭建-DWD层首日数据装载脚本及每日数据装载脚本
大数据·数据仓库·hive·笔记·学习
Gain_chance1 天前
29-学习笔记尚硅谷数仓搭建-DWD层交易域下单事务事实表和交易域支付成功事务事实表
数据仓库·hive·笔记·学习·datagrip
TTBIGDATA1 天前
【Ranger】Ambari开启Kerberos 后 ,Ranger 中 Hive 策略里,Resource lookup fail 线程池超时优化
大数据·数据仓库·hive·hadoop·ambari·hdp·ranger
B站计算机毕业设计超人3 天前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
B站计算机毕业设计超人3 天前
计算机毕业设计PySpark+Hive+Django小红书评论情感分析 小红书笔记可视化 小红书舆情分析预测系统 大数据毕业设计(源码+LW+PPT+讲解)
大数据·人工智能·hive·爬虫·python·spark·课程设计
普通网友3 天前
Hive ACID 事务表实战:插入 / 更新 / 删除操作的配置与使用限制
数据仓库·hive·hadoop
独自归家的兔3 天前
windows Hive使用全攻略:从入门到实战,轻松搞定大数据处理 - Hadoop windows安装
数据仓库·hive·hadoop
走过冬季3 天前
02 | Hive SMB Join 原理
数据仓库·hive·hadoop
QQ17958063963 天前
基于springboot+vue的hive的歌曲音乐筛选推荐系统网站(源码+lw+部署文档+讲解等)
vue.js·hive·spring boot
大鳥3 天前
第一章 - 数据仓库是什么
大数据·数据库·hive