目录

2023.11.12 hive中分区表,分桶表与区别概念

1.分区表

** 分区表的本质就是在分目录**

当Hive表对应的数据量大、文件多时,为了避免查询时全表扫描数据。比如把一整年的数据根据月份划分12个月(12个分区),后续就可以查询指定月份分区的数据,尽可能避免了全表扫描查询。

2.分桶表

分桶表的本质是在分文件

分桶表特点: 需要产生分桶文件, 查询的时候特定操作上提升效率(过滤,join,分组 以及 抽样)

  1. 分桶表也叫做桶表,叫法源自建表语法中bucket单词,是一种用于优化查询而设计的表类型。
  2. 分桶表对应的数据文件在底层会被分解为若干个部分,通俗来说就是被拆分成若干个独立的小文件。
  3. 在分桶时,要指定根据哪个字段将数据分为几桶(几个部分)。
  4. 分桶原理:
    如果是数值类型分桶字段: 直接使用数值对桶数量取模
    如果是字符串类型分桶字段: 底层会使用hash算法计算出一个数字然后再对桶数量取模

分桶表的使用好处有以下几点:

1、 基于分桶字段查询时,减少全表扫描

2、 JOIN时可以提高MR程序效率,减少笛卡尔积数量

对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了分桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。

3、 分桶表数据进行抽样

当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

3.分区表和分桶表的区别

分区表:

创建表的时候使用关键字: partition by (分区字段名 分区字段类型)

分区字段名注意事项: 是一个新的字段,需要指定类型,且不能和其他字段重名

分区表好处: 使用分区字段作为条件的时候,底层直接找到对应的分区目录,能够避免全表扫描,提升查询效率

分区表最直接的效果: 在hfds表目录下,分成多个分区目录(year=xxxx,month=xx,day=xx)

不建议直接上传文件在hdfs表根路径下: 分区表直接不能识别对应文件中数据,因为分区表会找分区目录下的数据文件

使用load方式加载hdfs中文件: 本质是移动文件到对应分区目录下
分桶表:

创建表的时候使用关键字: clustered by (分桶字段名) into 桶数量 buckets

分桶字段名注意事项: 是指定一个已存在的字段,不需要指定类型

分桶表好处: 使用分桶字段做抽样等特定操作的时候,也能提升性能效率

分桶表最直接的效果: 在hdfs表目录或者分区目录下,分成多个分桶文件(000000_0,000001_0,000002_0...)

不建议直接上传文件在hdfs表根路径下: 分桶表可以识别对应文件中数据,但是并没有分桶效果,也是不建议的

使用load方式加载hdfs中文件: 本质是复制数据到各个分桶文件中

分区:用load方式从hdfs文件加载到表中,会移动原文件到表的目录下

分桶:用load方式从hdfs文件加载到表中,不是移动原文件,先生成分桶文件,在扫描源文件数据,把符合要求的数据放到对应的桶文件中

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
刘若水25 分钟前
Linux : 页表
linux·运维·服务器
niuTaylor39 分钟前
嵌入式Linux驱动开发基础知识(三)
linux·运维·驱动开发
清源妙木真菌40 分钟前
Linux:页表详解(虚拟地址到物理地址转换过程)
linux·性能优化·内存管理
高峰聚焦41 分钟前
Linux 系统管理综合实训 —— 基于 NAT 模式的多 IP 配置、Nginx 服务部署及存储管理
linux·tcp/ip·nginx
逐光猴1 小时前
docker 配置harbor 非https访问(http server give HTTP response to HTTPS client)
linux·docker·容器
多多*1 小时前
2024第十五届蓝桥杯大赛软件赛省赛Java大学B组 报数游戏 类斐波那契循环数 分布式队列 食堂 最优分组 星际旅行 LITS游戏 拼十字
java·linux·stm32·单片机·嵌入式硬件·spring·eclipse
Love__Tay1 小时前
【学习笔记】Power BI 初级知识
笔记·学习·数据分析·powerbi
逆鱼_041 小时前
ARM-UART
linux·运维·arm开发
源远流长jerry1 小时前
Linux内核页表缓存(TLB)与巨型页
linux
浪淘沙jkp1 小时前
大模型学习五:‌DeepSeek Janus-Pro-7B 多模态半精度本地部署指南:环境是腾讯cloudstudio高性能GPU 16G免费算力
学习·deepseek·janus-pro·janus-pro-7b