2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
仗剑_走天涯13 分钟前
Hadoop 安装
大数据·hadoop·分布式
sunxunyong3 小时前
HDFS nnsdy重新配置启动
大数据·hadoop·hdfs
bukeyiwanshui3 小时前
Hadoop环境搭建
大数据·hadoop·分布式
Jianghong Jian3 小时前
HDFS常用的JAVA API
大数据·hadoop·hdfs
迈巴赫车主7 小时前
大数据:Hadoop(MapReduce)
大数据·hadoop·mapreduce
jasnet_u7 小时前
CentOS上搭建hadoop-3.3.6集群(3节点)
hadoop·centos
hashiqimiya16 小时前
windows的hadoop集群环境直接配
大数据·hadoop·分布式
迈巴赫车主1 天前
大数据:Hadoop(HDFS)
大数据·hadoop·hdfs
zhojiew2 天前
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析
hive·hadoop·spark·aws·bigdata
bukeyiwanshui2 天前
Hive的使用
数据仓库·hive·hadoop