分区表与分桶表

前言:在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易

在 hive 当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样去操作小的文件就会容易

1.使用:基本语法:

create table tablename(...) partitioned by ( 分区列 列类型 , ......) row format delimited fields terminated by '';

例如;create table myhive.score(id int ,cid string,score int) partitioned by (mouth string) row format delimited fields terminated by '\t';

查看:hdfs,发现目前是空的

加入数据:

命令:load data local inpath '/home/wtk/score.txt' into table myhive.score partition(mouth='241025');

几个分区就有几个文件夹

3.查看分区:show partitions score

4.创建表以后的修改:

5.分桶表:

分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式

但和分区不同,分区是将表拆分到不同的子文件夹中进行存储,而分桶是将表拆分到固定数量的不同文件中进行存储

一:创建:开启分桶的自动优化(自动匹配 reduce task 数量和桶数量一致)

命令:set hive.enforce.bucketing=true;

创建分桶表

create table course (c_id string,c_name string,t_id string) clustered by(c_id)

into 3 buckets row format delimited fields terminated by '\t';

桶表的数据加载,由于桶表的数据加载通过 load data 无法执行,只能通过 insert select.

看吧,不能load data 直接导入到表,此时可以新建表

新建临时表

插入数据到目标

命令: insert overwrite table course select * from course_son cluster by(c_id);

问题:为什么不可以用 load data ,必须用 insert select 插入数据

总的来说分桶表不能被计算计算过程,MapReduce一直在用,而load data 只是单纯导入文件数据

一旦有了分桶设置,比如分桶数量为 3 ,那么,表内文件或分区内数据文件的数量就限定为 3
当数据插入的时候,需要一分为 3 ,进入三个桶文件内。

Hash 取模:

Hash 算法是一种数据加密算法,同样的值被 Hash 加密后的结果是一致的

性能提升:

如果说分区表的性能提升是:在指定分区列的前提下,减少被操作的数据量,从而提升性能。分桶表的性能提升就是:基于分桶列的特定操作,如:过滤、 JOIN 、分组,均可带来性能提升。

分区和分桶可以同时使用

相关推荐
商业模式源码开发2 小时前
实体门店低获客成本增长案例:3 人转介绍模型 + 消费返还机制落地分析
大数据·商业模式·私域流量
元拓数智3 小时前
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建
大数据·分布式·ai·spark·数据关系·语义治理
TDengine (老段)4 小时前
TDengine Tag 设计哲学与 Schema 变更机制
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
sxgzzn5 小时前
新能源场站数智化转型:基于数字孪生与AI的智慧运维管理平台解析
大数据·运维·人工智能
清平乐的技术专栏6 小时前
【Flink学习】(二)Flink 本地环境搭建,运行第一个入门程序
大数据·flink
这是程序猿6 小时前
Spring Boot自动配置详解
java·大数据·前端
ws2019076 小时前
AUTO TECH China 2026广州汽车零部件展:从整机集成迈向核心部件的产业跃升
大数据·人工智能·科技·汽车
humors2216 小时前
从数据到决策:汽车使用成本的精细计算指南
大数据·程序人生
大大大大晴天7 小时前
Flink技术实践:RocksDB 状态后端技术解密
大数据·flink
189228048618 小时前
NY382固态MT29F32T08GSLBHL8-24QM:B
大数据·服务器·人工智能·科技·缓存